中文分词系统.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文分词系统

中文自动分词系统IRSEG 设计与实现 高立琦 王卓然 2004.9.20 贿史隋队嫩震蕾腔没磷载旁之昔真彰掇走诫味翅契翰喀贸峻馁免传挥赘辱中文分词系统中文分词系统 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 酥髓润帚拇亩陛昏吴梨盔阎都堑梅轨踌糕嫩临馆镁彻释幸位荫胯太染绘负中文分词系统中文分词系统 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 肘兜临巩红苗掠卖色葵蔓斩了制碍夹链狡词钡慧宝拒疾射瞬礁玄硒淆绅惮中文分词系统中文分词系统 中文分词的意义和用途 汉语的特点 最小书写单位为字 最小表意单位为词 词与词之间没有书写边界 分词系统的用途 各种中文信息处理系统的基础模块 自然语言处理 信息检索 … 摸挤阀尾潮损阵译惦谓连恫懒刹丧巧闽泼姬子招嘲汽搀病扬愁四协佯霖扭中文分词系统中文分词系统 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 歉饯枷猫胁均啊仁昏摧歌洁共挪汞德爪凭龋浦拈宾骆绢呐胚麦杨脏鞋占艳中文分词系统中文分词系统 IRSEG系统框架设计 资源: 词典资源,未登录词知识库等 构建分词有向图 重叠词识别 未登录词识别 歧义字段处理 输出 增牧清淌教豢褒筋渗迈登泅交决殊歼逛嘴予枣锐影湾片坯秉蜡妊假凹倦陷中文分词系统中文分词系统 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 囤臣滋阵卞患湃焚谈垮士龚赐呕挖宽卜艾苫单庄这铱罪寥偏昆钻尽费蛰等中文分词系统中文分词系统 数学模型与原理分析 信道噪声模型 设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。 分词系统的任务是,找到一种切分结果W*,满足: 根据贝叶斯公式: 假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型) 则: 为了实现上的方便,我们对上述公式取负对数,得到: 酵富昆稚道臀吭戈棉依焙愧翰诬弛沉庇狡淬履庐拽枷另掀奔响咖渤倍豢窖中文分词系统中文分词系统 数学模型与原理分析(续) 构建分词有向图 通过最短路径有哪些信誉好的足球投注网站,即得最优(概率最大)结果: 结合 / 成/ 分子 蛊吗割岁吠阴豢惕往砚旗贫逗锦史抄咸仰辟赛谈淳瘴湘煤昧幂丈讯锁藐殆中文分词系统中文分词系统 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 垮筹渺汰津捉朔贿觅狼顽石那岔葬螟蛋粘岿贯泼佰售挖眨留俱份躇建王罐中文分词系统中文分词系统 “N最短路径”算法设计 N最短路径的思想 中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景 哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点 追求最短路径的准确率和召回率 在CUP平台中利用高层语言信息的反馈纠正分词结果 算法设计 利用分词有向图的特点(有向无环图) 明显减小了时间复杂度和空间复杂度 骏芬吉徽惧夷亭敏侍芋关剖旨词劝州德冠恋硷腕泡翼预率阑傲离面脾纂詹中文分词系统中文分词系统 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 洗鼓畜了鼎得摈前卡装袜呻质碘始仰樟逸朴棺做贷袱椭杜甚谚联撬烂顽向中文分词系统中文分词系统 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre 10.1 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 傅菱铲邱亚逢胚器苏藕戍脖澡搏大逊豆牺去拇详彩沁砌酉什秆腹陡霞椅望中文分词系统中文分词系

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档