- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 词汇分析(一) —— 找出字符串中的“词” 詹卫东 /doubtfire/ 提纲 1 从字符串到词串 从字符串到词串(续) 张店区大学生不看重大城市的户口本 张店区 大学生 不 看 重大 城市 的 户口本 张店区 大学生 不 看重 大 城市 的 户口本 你认为学生会听老师的吗 你 认为 学生会 听 老师 的 吗 你 认为 学生 会 听 老师 的 吗 我家门前的小河很难过 …… 从字符串到词串(续) 2 英语的词汇处理 Tokenization:把字符串变为词串I’m a student - I ’m a student Lemmatization:对词进行内部结构和形式分析 took - take + ed (past tense) 2.1 Tokenization 1)数字:123,456.781 90.7% 3/8 11/20/2000 2)缩略(包含不同的情况): a. 字母-点号-字母-点号组成的序列,比如:U.S. i.e. 等等; b. 字母开头,最后以点号结束,比如:A. b. Mr. eds. prof. ; 3)包含非字母字符,比如:ATT Micro$oft 4)带杠的词串,比如:three-years-old,one-third,so-called 5)带瞥号的词串,比如:Im cant dogs lets 6)带空格的词串,比如:and so on,ad hoc a. 识别分数,日期的正则表达式:[ 0-9 ] + (/ [ 0-9 ] + ) + e.g. 12/21 5/13/2002 b. 识别百分数的正则表达式:[ \+ | \ -] ? [ 0-9]+ . ? [ 0-9 ] * % e.g. - 5.9% 91% c. 识别十进制数字的正则表达式:( [ 0-9 ] + , ? ) + (. [ 0-9 ] + | [ 0-9 ] + ) * e.g. 12,345 数字的识别(有限状态转移网络) (1)对一个待分析的字符串(S),从左到右进行扫描,读入当前字符(char)到候选词数组(W[ i ]),并将指针(pointer)前移,i=i+1; (2)看char是否为词分隔符(事先可以预定义空格以及一般标点均为词分隔符); (3)如果char是词分隔符,并且W不是空格,将W中从起始位置到i-1位置的字符作为一个词汇单位输出,同时将S中的W部分删去,然后清空W,转入(1),如果char是词分隔符,且W是空格,将S中的W部分删去,清空W,转入(1); (4)如果不是词分隔符,看指针是否已经指到字符流尾部; (5)如果指针已经指到字符流尾部,将当前W从起始位置到i-1位置的字符作为一个词汇单位输出,结束。 (6)如果不是字符流尾部,转入(1); Tokenization示例 2.2 Lemmatization 英语构词模式:{前缀}+ {词根} + {后缀} + [词尾] 构词示例 boys(复数词尾) happiness(名词后缀) impossible(前缀) strongest(形容词最高级词尾) housewarmings(复合词+复数词尾) 构词分析需要的知识库 Lemmatization算法的一般过程 Lemmatization示例 待分析的词形 W=“boys” , d= 4, i=1, R=“” W不在词典中,从W中取出1个尾字符, “boy” + “s” W2=“s”,W1’=“boy” 输出:“boy” + “s” Lemmatization容易碰到的问题 不规则词形变化:child - children 歧义问题:1)是词缀 还是 词根中的字符,有时不易判断 比如:分析副词词尾“ly”的规则: (1)将串尾字符“y”去掉; (2)如果剩下的字符串以“ll”结尾,将“ll”变为“le” wholly ? whol ? whole fully ? ful ? fule only,inform,…… 2)不同的词根原形,相同的词形变化 best - good / well? Lemmatization要做到何种程度 词干层。如:impossibilities?impossibility+ies 词根层。如:impossibilities?im+poss+ibil+it+ies 分析程度取决于自然语言处理系统的深度: 不解决未定
您可能关注的文档
- 第九篇提升你的人际沟通能力——人际交往中的心理调适.ppt
- 交易、事项分析和会计恒等式.ppt
- 第九篇体液葡萄糖检验.ppt
- 第九篇外科感染病人的护理.ppt
- 交易和锁定对效能的影响.ppt
- 乐和弦乐的交相辉映开拓者深层治疗系统.PDF
- 第九篇学前儿童心理发展的理论流派.ppt
- 第九篇原核基因表达的调控.ppt
- 第九篇战略实施.ppt
- 第九篇组织设计.ppt
- DB14∕T 143-2019 苹果褐斑病测报调查规范.docx
- DB14∕T 1417-2017 人工生态公益林经营技术规范.docx
- DB14∕T 1469-2017 胡麻垄膜集雨沟播栽培技术规程.docx
- DB14∕T 1457-2017 带柄玻璃杯标准规范.docx
- DB14∕T 1394-2017 北柴胡良种繁育技术规程.docx
- DB14∕T 1352-2017 晋北区旱地黍子栽培技术规程.docx
- DB14∕T 560-2010 人工影响天气火箭作业系统年检技术规范.docx
- DB14∕T 1510-2017 玉米镰孢穗腐病抗性鉴定牙签接种技术规程.docx
- DB14∕T 166.2-2007 太原绿色转型标准体系 第2部分:框架.docx
- DB14∕T 703-2012 气象灾害等级划分.docx
文档评论(0)