- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
匹配法分词*史忠植人工智能:自然语言处理*最大匹配法。最大匹配法简称MM方法。其思想是:在计算机磁盘中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,通常为为词典中的最大词长,这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配,若匹配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给定最大词长相应个数的汉字,继续进行匹配;否则,把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。逆向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理与MM法相同,所不同的是分词时对待切分文本的扫描方向。MM方法从待切分文本中截取字符串的方向是从左到右,而RMM方法则是从右向左。在与词典匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为上。实验表明,RMM法的切词正确率要比MM法高0102汉语分词的难点*史忠植人工智能:自然语言处理*分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。对歧义字段的处理水平,直接影响着自动分词系统的分词准确率。未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。然而,目前对于这些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。汉语分词的难点*史忠植人工智能:自然语言处理*除了由于未登录词而引起的歧义,切分歧义主要有三种类型:交集型歧义,即汉字串ABC既可切成AB/C,又可切成A/BC。组合型歧义,即汉字串既可切分成AB,又可切分成A/B。混合型歧义,是前两种的自我嵌套或三者的交叉组合产生的。为了既能得到较高的准确率,又有较小的开销,可以着重解决相对数量较大又较容易解决的交集型歧义。汉语分词的难点*史忠植人工智能:自然语言处理*根据规则消除兼类,根据预料库统计消除兼类两种方法词类分析汉语的发展是先有字后有词,所以关于词的研究还存在一些问题,比较突出的是汉语词类的兼类问题。例如,大量的双字动词兼作名词。要进行汉语理解,如果不把词类先确定下来的话,那么下一步的分析也难以进行。汉语词类的兼类处理方法内容提要*史忠植人工智能:自然语言处理*01概述02词法分析 03句法分析 04语义分析05语用分析 06语料库 07信息检索 08机器翻译 09问答系统 10小结信息检索*史忠植人工智能:自然语言处理*信息检索(informationretrieval,IR)是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。1950年,穆尔(MooreC)根据图书馆的参考咨询和文摘索引提出了信息检索。信息检索包括信息存储和检索。在检索之前必须将信息收集起来,按科学方法进行整理,并按一定准则存储起来,形成书本式检索工具或者计算机可读数据库。在检索时,用户根据自身需求提交查询给信息检索系统,系统利用存储信息所依据的准则,在文档集中找出与查询条件相关的文档子集,并按照它们与查询条件的相关性进行排序,最后为用户返回一个有序的文档子集。信息检索*史忠植人工智能:自然语言处理*从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程信息检索过程*史忠植人工智能:自然语言处理*信息检索的类型*史忠植人工智能:自然语言处理*文献检索数据检索事实检索概念检索按信息检索的内容划分01超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。全文本检索多媒体检索超文本检索按信息检索的组织方式划分02内容提要*史忠植人工智能:自然语言处理*概述01词法分析 02句法分析 03语义分析04语用分析
您可能关注的文档
- 中考作文万能开头法.ppt
- 九龙港海鲜城餐饮管理系统分析与设计毕业答辩课件.ppt
- 《寒号鸟》ppt课件(部编版).ppt
- 一年级语文上册《汉语拼音总复习》课件.ppt
- 中小学校长队伍管理与建设.ppt
- 中考语文作文指导课件(材料作文审题和立意).ppt
- 亚洲及欧洲全课(课件).ppt
- 山东省泰安市宁阳县2023-2024学年八年级上学期期末考试英语试题(解析版)-A4.docx
- 利辛九年级英语答案.pdf
- 辽宁省沈阳市南昌中学2024-2025学年八年级上学期期中语文试题(解析版)-A4.docx
- 辽宁省铁岭市部分学校2024-2025学年九年级上学期期中语文试题(解析版)-A4.docx
- 福建省福州市长乐第一中学2024-2025学年高二上学期第一次月考政治试题-A4.docx
- 山东省泰安市宁阳县2023-2024学年八年级上学期期末考试英语试题(原卷版)-A4.docx
- 第01讲 同底数幂的乘法(1个知识点+5类热点题型讲练+习题巩固)(原卷版)-A4.docx
- 辽宁省沈阳市于洪区2024-2025学年八年级上学期期中道德与法治试卷-A4.docx
- 食品添加剂甘氨酸锌食品安全国家标准编制说明 .pdf
- 2024中国其他科技服务行业影响因素分析.docx
- 中国船舶修理及拆船行业分析报告.docx
- 面试自我介绍集合七篇.doc
- 中国电子测量仪器行业市场发展现状及前景趋势与投资分析研究报告(2024-2029版).docx
最近下载
- DB3502_T 105-2023 城市轨道交通工程工程量清单计价规则.docx
- 专题02 《醉翁亭记》三年中考真题(解析版)-备战2022年中考语文课内文言文知识点梳理+三年真题训练(部编版).docx
- 向解放军学习完整版.pdf
- 2024年中国行业大模型市场报告.pdf
- 2023年广东外语外贸大学汉语言文学专业《现代汉语》期末试卷A(有答案).docx VIP
- “促进学校内涵发展 提高教育教学质量”经验总结汇报材料5篇.docx VIP
- 人才测评-管理游戏(上篇).pptx VIP
- 河南省 12YN3、12YN4、12YN5 制冷工程、空调工程、通风与防排烟工程 DBJT19-07-2012.docx VIP
- 肢体残疾康复训练档案肢体残疾康复训练档案.doc
- 潍柴动力纳税分析2022-03.pptx
文档评论(0)