- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文词语分析一体化系统-pku.ppt
张华平 刘 群 zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28 纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路—基于多层HMM的一体化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统ICTCLAS 结论 问题背景与难点分析 问题背景 问题背景与难点分析 II 分词的必要性 问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰 主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等) 主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 动态规划和全切分有哪些信誉好的足球投注网站+叶子评价 主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧结合 处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理 主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理出现在系统中相对独立的两个不同阶段。 排歧、识别未登录词更多的是利用规则,难以量化。即使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣称的那样理想,尤其是在未登录词、歧义字段存在的情况里。 我们的研究思路—基于多层HMM的一体化方法 目标: 分词、词性标注的一体化;未登录词与普通词处理的一体化;评估体系一体化。 基本思想: 采取HMM模型,建立切分词图。词语粗分阶段,先得出N个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。 基于多层HMM的一体化方法II 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P((W,T)|C) =ΠP(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2) ∴ 评价函数或者决策函数如下: (W,T)*= [Σ ln P(ti|ti-1) + Σ ln P(wi|ti)] 基于多层HMM的一体化方法IV 一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 基于N-最短路径的词语粗分 基本思想 根据词典,建立字串词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1, 第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。 基于N-最短路径的词语粗分II 出发点 实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能,另一方面又大大解决了
您可能关注的文档
- 中华人民共和国国家标准----快速响应矩阵码.PDF
- 中华人民共和国国家标准非道路移动机械用柴油机排气污染 ... - Inmetro.PDF
- 中四快捷/中五普通班.DOC
- 中国e-VLBI 网的建立及应用 - 上海天文台.PDF
- 中国优势矿产资源界定研究.PDF
- 中国南昌2015年7月25日-29日一、大会主题丹成云锦,龙虎得道.doc
- 中国南极陨石研究新进展-极地标本资源共享平台.PDF
- 中国半导体产业全球地位提升 - 中国电子报.PDF
- 中国古生物学会会迅35期.doc
- 中国地域建筑与建筑史研究的时代意义与省思 - 淡江大学学生事务处.DOC
- 2024年中国城区经济高质量发展研究报告.docx
- 2024年网络安全现状报告-ISACA-41页.docx
- 什么是数据架构(华为).pdf
- 乘联会:2024年9月轻型商用车市场预测研究报告-16页.pptx
- 2024秋日自然山野研学系列(秋日在野计划主题)活动策划方案-47P.pdf
- 2024AIGC创新应用洞察报告-创业邦.docx
- 智慧社区(街道)康养医疗居家养老管理运营平台体系解决方案.pdf
- 轻工制造“碳中和”专题报告:CCER重启在望,我国碳交易市场大有可为-20230330-民生证券-46页.docx
- 2024年9月中国快递物流行业经济运行情况月度报告.docx
- 2024年纷享销客一体化BI智能分析平台橙皮书V2.docx
最近下载
- 农民工工资支付计划.pdf VIP
- 市政验·绿-4 种植穴、槽的挖掘工程检验批质量验收记录.pdf VIP
- DB53∕T 67.3-2017 建筑消防安全检测评价 第3部分:灭火设施.pdf
- ISO14000环境管理体系练习题.pdf VIP
- 产品质量保证承诺书15篇.pdf VIP
- 2025(部编版)语文九年级上册 第二单元 复习课件.pptx
- 一级建造师工程经济讲义.pdf VIP
- 关于成都市数字化金融创新服务的研究.pdf VIP
- 2023年02月安徽合肥市教育局直属事业单位选调工作人员笔试参考题库+答案详解.docx VIP
- 《单位消防安全管理 第2部分:建筑消防设置维护》 DB53T 270.2-2017.pdf VIP
文档评论(0)