机器学习方法在少数民族语言信息处理中的应用.pptVIP

机器学习方法在少数民族语言信息处理中的应用.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习方法在少数民族语言信息处理中的应用

* * * * * * * 从纵横两个维度更加清晰地诠释了自然语言处理中概率图模型的演变过程,横向:由点到线(序列结构)、到面(图结构)。以朴素贝叶斯模型为基础的隐马尔可夫模型用于处理线性序列问题,有向图模型用于解决一般图问题; 以逻辑回归模型(自然语言处理中即ME模型)为基础的线性链式条件随机场用于解决“线式”序列问题,通用条件随机场用于解决一般图问题;纵向:在一定条件下生成式模型(Generative Model)转变为判别式模型(Discriminative Model),朴素贝叶斯模型演变为逻辑回归模型、隐马尔可夫模型演变为线性链式条件随机场、生成式有向图模型演变为通用条件随机场。 * * * 参照汉语基于字的分词方法,选用“BMES”标记集,根据每个藏文音节在词中出现的位置,给予不同的标签。 3. ML方法在NLP中的应用 音节数 藏语词汇 标记示例 1 ??(我,nga) ??/S 2 ???????(学生,slob ma) ?????/B ??/E 3 ???????????(记者,gsar vgod pa) ????/B ?????/M ??/E 4 ??????????????????(常务主席,rgyun las kruvu zhi) ??????/B ???/M ??????/M ??/E 训练语料:13.4M,用于分词模型和紧缩词处理模型训练 开放测试集:424212 (词数) 3. ML方法在NLP中的应用 紧缩词识别结果:F1 = 98.91% 分词结果:F1 ≥ 95% 实验证明,紧缩词识别对提高分词性能有明显的效果。 李亚超,加羊吉,宗成庆,于洪志,基于条件随机场的藏语自动分词方法研究与实现,中文信息学报,2013年7月,第27卷第4期,第52-58页 3.3 CRF和ME相结合的藏语人名识别方法 藏文人名识别的难点 藏文人名没有明显的形态特征,不像英语等,首字母大写 普通词作为人名用词现象严重,如???????(大海)、 ??????(花朵)、??????(长寿)、?????????(幸福)、?????(星期五)、????????(初一)等 音节长度不规范。藏文人名以二、三、四音节为主,也有少量单音节的人名(如:????)以及多音节(如: ??????????????????????????? ???????????????????????????? ???????????????????????????????????????????)。藏文最长人名可达26个音节 3. ML方法在NLP中的应用 藏文人名的组成特点: 用宗教术语命名,如: ???????? ???????? 用自然意境命名,如: ???????? ?????? 表达美好愿望而命名的,如: ???????? ???????? 以纪念出生日期命名,如: ???????? ???????? 用动物名命名,如: ??????? ????? 以纪念某种历史事件命名的,如: ???????????????????? ?????????????? 3. ML方法在NLP中的应用 加羊吉对《西藏日报》2007年1月的语料中出现的所有藏族人名进行了分析,其中91%的人名是以前三种方式起名的。 藏文人名的边界用词分析: 加羊吉从《西藏日报》2007年1月的语料库和青海藏文网一部分语料(共计528169个音节)中抽取了1403个人名,其中,藏族人名有995个,译名有408个。得出如下统计数据: 3. ML方法在NLP中的应用 ? SNR ??? ???????????????? ????????? ????????? ??????? ????????? ????????? ????????????? 590 297 82 50 29 27 25 23 18 15 左边用词频度 右边用词频度 ? ???? ??? ????? ???? ??? ??? ???? ????????? ???????? 568 383 194 53 51 45 14 12 7 4 SNR指人名出现在句首。 CRF与ME相结合的动因: 最大熵模型的特征选择比较灵活,应用于不同领域时的可移植性较强,因此,在实验中一直保持较好的召回率;而条件随机场能够较好地解决最大熵模型的标注偏置等问题,从而大幅度地提高准确率。针对两种模型的优劣特点,加羊吉等(2013)提出了两种模型相融合的识别方法,定义评价函数为: Total = ??CRF + (1-?)?ME 其中,? 表示权重,我们可以通过调节值的大小,从而取得最优结果。CRF 和 ME 分别表示用条件随机场方法和最大熵方法测试人名识别的结果打分。 3. ML方法在NL

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档