面向大规模信息检索的中文分词技术探究.ppt

面向大规模信息检索的中文分词技术探究.ppt

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向大规模信息检索的中文分词技术探究

面向大规模信息检索的中文分词技术研究 王小飞 指导教师:王斌 前瞻研究中心 2006-6-6 提纲 一、引言 二、面向大规模中文信息检索的分词算法 三、基于双数组Trie树优化算法的词典 四、歧义消除 五、未登录词识别 六、查询扩展层面的覆盖歧义处理 七、实验结果和分析 八、总结 一、引言 研究意义 信息检索简介 中文分词简介 常用评测指标 研究意义 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。 速度:每秒几十k~几M 切分正确率:80%~98% 研究意义 针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。 信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。 信息检索简介 信息检索(Information Retrieval, IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。 中文分词简介和困难 中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别 分词规范方面的困难 汉语中词的界定 “教育局长”:“教育/局长”?“教育局/长”?“教育/局/长” ? 核心词表如何收词? 词的变形结构问题:“看/没/看见” ,“相不相信” 不同应用对词的切分规范要求不同 输入法:“这是”、“每一”、“并不”、“不多”、“不在”、“就是” 信息检索:“中国/科学院” 、“计算/语言学” 分词算法上的困难 切分歧义的消除 交集型歧义(交叉歧义):“组合成” 我们/小组/合成/氢气了;组合/成/分子; 组合型歧义(覆盖歧义):“马上” 他/从/马/上/下/来;我/马上/就/来/了 ; “学生会组织义演活动” : “学生/会/组织/义演/活动” or “学生会/组织/义演/活动”? 分词算法上的困难 未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水” 新词:“酱紫”、“星盘” 先识别已知词还是先识别未登录词 先识别已知词:“内塔尼亚/胡说” 先识别未登录词:“胜利取决/于勇/气” 常用评测指标 召回率(Recall) 分词: 检索: 准确率(Precision) 分词: 检索: 常用评测指标 TREC(Text Retrieval Conference)的评测指标 Interpolated Recall - Precision Averages:用插值法计算在11个召回点(0.0~1.0)下相对的准确率。 Average precision (non-interpolated): 表示平均每篇相关文档被检索出来时的准确率。 表示对于Query j检索出的所有相关文档数, 表示对于Query j,在第i篇相关文档被检索出时总共检索出的结果文档数。 常用评测指标 TREC(Text Retrieval Conference)的评测指标 Precision:在检索到x篇文档时的准确率。x为5、10、15、20到1000不等。例如Precision:At 30 docs(通常用P@30表示)的值为0.5784就是表示前30篇文档中检索的准确率是0.5784。 R-Precision:一个查询检索到R篇文档时的准确率。R为该查询真正相关的文档数。如果一个查询的相关文档数为30,在检索系统检索出的前30篇文档中相关文档数为18,则该查询的R-Precision为18/30=0.6。 二、面向大规模中文信息检索的分词算法 分词方面的相关研究成果 分词和大规模中文信息检索之间的关系探讨 适用于大规模中文信息检索的分词算法 分词方面的相关研究成果 基于词典和规则的方法 基于大规模语料库的统计方法 规则和统计结合的方法 基于字的切分法 基于词典和规则的方法 最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。 全切分 利用词典匹配,获得一个句子所有可能的切分结果。 时空开销非常大。 基于理解的分词算法 模拟人的理解过程,在

文档评论(0)

rachel + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档