- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
正则表达式;;正则表达式是一种可以用于模式匹配和替换的工具。通过正则表达式可以对指定的文本实现匹配测试、内容查找、内容替换、字符串分割等功能。正则表达式常用函数如下。
match函数:用于检测字符串开头位置是否匹配。
search函数:用于在整个字符串内查找对应的模式进行匹配。
findall函数:返回的是正则表达式在字符串中所有匹配结果的列表。
sub函数:能够找到所有模式匹配的字符串并用指定的字符串替换。
;元字符由特殊符号组成,元字符的应用是正则表达式强大的原因,元字符定义了字符集合、子组匹配、模式重复次数。元字符使得正则表达式不只是可以匹配一个字符串,还可以匹配字符串集合。
1. 字符匹配
英文句号“.”:匹配任意一个字符,表示匹配除去换行符“\n”之外的任意一个字符。
中括号“[ ]”:匹配多个字符,表示包含在中括号内部的字符都会被匹配。
管道符“|”:用于对两个正则表达式进行或操作。
乘方符号“^”:匹配字符串起始位置的内容。
货币符号“$”:匹配字符串的结束位置的内容。
量化符号“?”“*”“+”“{n}”“{n,}”“{m,n}”:匹配需要的字符数。;量化符号的解释说明如表所示。
;字符串中可以包含任何字符,如果待匹配的字符串中出现“$”“.”“[ ]”等特殊字符,那么这将会与正则表达式的特殊字符发生冲突。
遇到这种情况,Python使用“\”将字符串内的特殊符号进行转义,即表示告诉Python,这个字符当作普通字符处理。
“\”是用于进行转义的,如果字符串包含“\”,那么需要使用“\”将“\”进行转义。
在正则表达式中,通常解释一个反斜杠“\”需要用两个反斜杠“\\”表示。而python中自带的原生字符“r”很好的解决了这个问题。对于文本中的“\”,只需要“r\”表示即可。对于需要转义的字符如“\\d”,可以从写成“r\d”。
;例如,输入一个字符串 “C:\Users\Administrate\Desktop”,假设直接书写会直接报错。
报错原因是该字符串中带有转义符“\”,第一个转义符后面带有U,则在读取过程中会被人为是“\U”。
特殊字符中不带有这种字符,故而报错,后两个转义符亦是如此。
字符串应改为“C:\\Users\\Administrate\\Desktop”。
;Python预定义字符的解释说明如下表所示。
;;在进行中文分词前,数据格式要求全部是中文,此时需要对文本的以下内容进行过滤处理。
特殊符号
标点
英文
数字
读者也可以根据自己的要求过滤自定义字符。
;文本人名正则表达式匹配方法如下。
名字首先匹配第一个大写字母采用[A-Z]表示。
名字第二个字符只包含英文句号、空格或字母,统一采用[\.a-zA-Z]表示。
最后用+表示允许匹配多个。
电话号码正则表达式匹配方法如下。
以“(”或数字开头,采用[0-9(]表示。
第二个字符接数字或“)”或英文句号,采用[0-9- ).]表示。
最后用+表示允许匹配多个。;例如,一个网页标签内容为“a href=”“百度/a a href=”“谷歌/a”。
需要提取网页标签中的网址和文本。
通过观察,网址信息保存在href属性中,文本内容则是在特殊字符中间。;本章主要介绍正则表达式的基本知识和技术。
正则表达式的常用函数。
正则表达式的元字符及元字符的含义。
最后通过实例对正则表达式的使用方法进行展示。;
您可能关注的文档
- 2023年老年人防诈骗知识宣传专题讲座PPT.pptx
- 2024年中考化学项目式探究题复习策略.pptx
- 2024年中考质量分析会《新课标背景下的中考化学复习策略》.pptx
- Python中文自然语言处理基础与实战(课件)第1章 绪论.pptx
- Python中文自然语言处理基础与实战(课件)第2章 语料库.pptx
- Python中文自然语言处理基础与实战(课件)第4章 中文分词技术.pptx
- Python中文自然语言处理基础与实战(课件)第5章 词性标注与命名实体识别.pptx
- Python中文自然语言处理基础与实战(课件)第6章 关键词提取.pptx
- Python中文自然语言处理基础与实战(课件)第7章 文本向量化.pptx
- Python中文自然语言处理基础与实战(课件)第8章 文本分类与聚类(第二节).pptx
文档评论(0)