基于电子政务主题词表的中文匹配方法.pdf

基于电子政务主题词表的中文匹配方法.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于电子政务主题词表的中文匹配方法

维普资讯 囊攀囊囊囊甏萎 磐蠢爱囊篷囊 囊囊骥 囊囊摹萋囊骜 ≤ 基于电子政务主题词表的中文匹配方法 杨 芳 (同济大学 上海 200092) 摘 要 讨论 了基于 电子政务主题词表的中文匹配方法。该方法 以电子政务主题词表为基础 ,对 中文文本进行匹 配 ,找 出文本 中的主题词 ,作为进一步标 ;l文本和检索文本的前提 。为 了匹配 出文本 中出现频率较高的而主题词表 中 没有的词语 ,我们根据 n—Gram 统计特性学 习新词。对于匹配结果 中出现 的交集型歧义这类主要 的歧义类型 .通过 计算匹配词语与其交集词语各 自字符之间的互信息值 。来消除匹配词语 的交集歧义,互信息值较大的词说 明该字符组 舍 的可能性 比较 大 。 关键词 电子政务 主题词表 中文匹配 新词学习 互信息值 电子政务是信息化社会政府改革的必然选择 .它使政府部 门 标准 是在 参照 了 GB13190—9l ‘汉语 叙词表编 制规则、GJB 能够运用先进的计算机技术 、通信技术和网络技术向全社会提供 1776A一99军用主题词表编制规则,浏览了我国国务院所属各 高效优质 、透明和全方位的政府管理和服务。电子政务中的文档 部委局及各省(区 、市)的政府网站,调 研了世 界主 要国家电子政 包含电子政务中所用到的各类文档信息,是电子政务的重要组成 府发展概况 ,结合中国电子政务发展现状及发展趋势基础上编制 部分。 的。该主题词表包括 电‘子政务主题词表主表 (字Jl瞬表)、范畴索 电子政务文档的管理包括对文档的分类、聚类、摘要、标引和 引、词族索引等。主表共收集了电子政务领域的主题词 2万余 检索等。而进行这些文档管理的基础就是对文档的内容信息进 条,并建立了用、代、属、分、参、族词间关系 ,图 1给出词间关系模 行理解,抽取出文档中有用的信息。对于中文来说 ,由 间没有间隙,需要对句子进行分词 ,找出句子中的词 语,从而对句子进行理解。本文对中文进行分词 ,根据 电子政务主题词表 ,匹配出句子中的主题词 ,找出文本 中的主题词 ,为文档的进一步管理提供基础。同时突 破电子政务主题词表的局限性 ,使用 n—Gram统计特 性匹配主题词表中没有收录的文本中的新词 。根据匹 配方法和中文的特点.我们提出了互信息值的概念消除匹配结果 2 词典切分法 中的歧义。互信息值反映 了匹配结果在文本中题名组成语词的 概率 ,互信息越大 .匹配结果的可能性越大。 汉语与西文的特点不 同,主要表现为以下三点 :汉语 中词与 本文主要特点有以下三点 :a.本文词典匹配的基础为电子政 词之间没有 自然界限;汉语词语的词尾没有语态的变化;汉语 中 务主题词表 ,是电子政务标准化词表,该词表不仅包含丰富的词 没有语法形态的变化。因此为了找出汉语中所包含的词语 ,则需 间关系。而且是资源交流的基础 ;b.使用 rl—Gram统计特性来学 要独特的分词方法。大量的文献和研究表明目前汉语分词的主 习电子政务主题词表中没有的新词 .突破了词表中主题词的局限 要方法可以分为四类 “j:词典切分法、语义语法规则分词法 、统计 性-c.使用互信息值消除匹配结果中的歧义,提高匹配结果的准确 分析法和人工智能法 。而 目前应用比较成熟的方法为词典切分法 度 。 和统计分析法。 词典切分法作为较为成熟的分词技术。由于词典法的共组特 1 电子政务主曩词表 点,使其避开了其他分词方法在组词上的随意性 ,易产生歧义的 电子政务不仅要重视姗络基础设施建设、重视

您可能关注的文档

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档