Python中文自然语言处理基础与实战(课件)第3章 正则表达式.pptx

Python中文自然语言处理基础与实战(课件)第3章 正则表达式.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
正则表达式;;正则表达式是一种可以用于模式匹配和替换的工具。通过正则表达式可以对指定的文本实现匹配测试、内容查找、内容替换、字符串分割等功能。正则表达式常用函数如下。 match函数:用于检测字符串开头位置是否匹配。 search函数:用于在整个字符串内查找对应的模式进行匹配。 findall函数:返回的是正则表达式在字符串中所有匹配结果的列表。 sub函数:能够找到所有模式匹配的字符串并用指定的字符串替换。 ;元字符由特殊符号组成,元字符的应用是正则表达式强大的原因,元字符定义了字符集合、子组匹配、模式重复次数。元字符使得正则表达式不只是可以匹配一个字符串,还可以匹配字符串集合。 1. 字符匹配 英文句号“.”:匹配任意一个字符,表示匹配除去换行符“\n”之外的任意一个字符。 中括号“[ ]”:匹配多个字符,表示包含在中括号内部的字符都会被匹配。 管道符“|”:用于对两个正则表达式进行或操作。 乘方符号“^”:匹配字符串起始位置的内容。 货币符号“$”:匹配字符串的结束位置的内容。 量化符号“?”“*”“+”“{n}”“{n,}”“{m,n}”:匹配需要的字符数。;量化符号的解释说明如表所示。 ;字符串中可以包含任何字符,如果待匹配的字符串中出现“$”“.”“[ ]”等特殊字符,那么这将会与正则表达式的特殊字符发生冲突。 遇到这种情况,Python使用“\”将字符串内的特殊符号进行转义,即表示告诉Python,这个字符当作普通字符处理。 “\”是用于进行转义的,如果字符串包含“\”,那么需要使用“\”将“\”进行转义。 在正则表达式中,通常解释一个反斜杠“\”需要用两个反斜杠“\\”表示。而python中自带的原生字符“r”很好的解决了这个问题。对于文本中的“\”,只需要“r\”表示即可。对于需要转义的字符如“\\d”,可以从写成“r\d”。 ;例如,输入一个字符串 “C:\Users\Administrate\Desktop”,假设直接书写会直接报错。 报错原因是该字符串中带有转义符“\”,第一个转义符后面带有U,则在读取过程中会被人为是“\U”。 特殊字符中不带有这种字符,故而报错,后两个转义符亦是如此。 字符串应改为“C:\\Users\\Administrate\\Desktop”。 ;Python预定义字符的解释说明如下表所示。 ;;在进行中文分词前,数据格式要求全部是中文,此时需要对文本的以下内容进行过滤处理。 特殊符号 标点 英文 数字 读者也可以根据自己的要求过滤自定义字符。 ;文本人名正则表达式匹配方法如下。 名字首先匹配第一个大写字母采用[A-Z]表示。 名字第二个字符只包含英文句号、空格或字母,统一采用[\.a-zA-Z]表示。 最后用+表示允许匹配多个。 电话号码正则表达式匹配方法如下。 以“(”或数字开头,采用[0-9(]表示。 第二个字符接数字或“)”或英文句号,采用[0-9- ).]表示。 最后用+表示允许匹配多个。;例如,一个网页标签内容为“a href=”“百度/a a href=”“谷歌/a”。 需要提取网页标签中的网址和文本。 通过观察,网址信息保存在href属性中,文本内容则是在特殊字符中间。;本章主要介绍正则表达式的基本知识和技术。 正则表达式的常用函数。 正则表达式的元字符及元字符的含义。 最后通过实例对正则表达式的使用方法进行展示。;

文档评论(0)

孜孜不倦 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档