网站大量收购闲置独家精品文档,联系QQ:2885784924

汉语自动分词中中文地名识别.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语自动分词中中文地名识别

第46 卷第4 期 . 46, . 4 大 连 理 工 大 学 学 报 Vol No 2 0 0 6 年 7 月 . 2 0 0 6 Journa l of Da lian Un iversity of Technology Jul ( ) 文章编号: 2006 汉语自动分词中中文地名识别 高   红,  黄 德 根 ,  杨 元 生 ( 大连理工大学 计算机科学与工程系, 辽宁 大连 116024 ) 摘要: 以词语级的中文地名为识别对象, 根据地名内部用字的统计信息和地名构成特点产 生潜在地名. 在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词, 利用候 选切分词本身的可信度和上下文接续关系评价句子的各种切分方案. 在确定句子最佳切分 时 识别句子 中的中文地名. 对真实语料进行封 闭和开放测试, 封 闭测试结果为召回率 93. 55% , 精确率 94. 14% , F1 值 93. 85% ; 开放测试结果为召回率 91. 27% , 精确率 73. 48% , F 1 值 81. 42%. 取得了比较令人满意的结果. 关键词: 中文地名识别; 汉语自动分词; 未登录词识别 中图分类号: TP 391. 12 文献标识码: A 0  引  言 桥镇”、“南化村”等, 其中“临川”、“双桥”、“南化” 为地名专名, “市”、“镇”、“村”为地名通名. 单字 未登录词是影响汉语自动分词精度的主要因 通名包括行政区划名称, 如“省、市、县、区、乡、镇、 素. 未登录词识别也受到不正确分词结果的影 村、旗、州、府”等, 也包括表示地形地貌 的, 如 响. 因此, 研究者们提出了各种基于单个汉字的 “江、河、山、洋、海、岛、峰、湖”等, 还包括表示 自 未登录词识别方法[ 1、2 ]. 本文就未登录词中的中 然区划的“街、路、巷、庄、堡”等. 在地名识别中, 文地名识别进行研究, 在基于单个汉字产生潜在 单字通名被称为地名特征字, 地名特征字属于地 地名的基础上将中文地名识别与汉语自动分词同 名 内部用字, 即地名尾字. 如果地名由专名和两 时进行, 这样可以避免不正确的分词结果对地名 字以上的通名构成, 本文只标识其专名部分, 如在 识别的负面影响. 根据地名内部用字的统计信息

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档