网站大量收购闲置独家精品文档,联系QQ:2885784924

中文基本地名识别.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

钱小飞侯敏

中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心北京100024

Email:qiertlying@163.com,bouminxx@263.net

摘要:本文探讨了地名的概念、构成等问题,并针对其分布特点,使用常见地名匹配、碎片分析和组合扩展相结

合的方法初步识别了中文基本地名,包括中国地名和汉译地名。开放测试取得了88.16%的正确率和87.32%的召

回率。

关键词:中文基本地名;命名实体;识别

iofChiBasiLocati

ti

RecognonneseCon

QianMin

Xiaofei,Hou

NationalResourcesandResearchMedia

Center(BmadcaStBranch),Communication

LanguageMonitoringLanguage

100024

ofChina,Beijing

University

Email:qierflying@163.eom,houminxx@263.net

combines

Abstract:"lttidisscusstheesofwellitsitsomemethosdsuch

location

paperconceptasaScomposing.andas

commonlocationandwordsextensionChineBsaesic

fragmentanalysistoLocation,

matching,segmentrecognize

includingtheLocationsofChinaandtheforeignLocationabout88.16%insinChineprecise.Ths

and87.32%inrecall.

BasicEntity;Recognition

Keywords:ChineLsocation;eName

1引言

命名实体识别是汉语自动分词的难题。地名作为一种常见的命名实体,在文本中有着较为广

泛的分布。它的识别可以有效地提高分词精度,同时在信息检索和问答系统等领域也有着重要的

应用。

人脑识别地名通常有三种手段:匹配已知地名,基于内部构成猜测未知地名,基于上下文知

识猜测未知地名。在以往的研究中,这三种手段常常以不同的组合方式集成到统计和规则系统中。

主要的研究有:沈达阳等(1995)利用属性矩阵和频级进行筛选识别地名,刘开瑛(2000)根据

地名词典和语料库估计地名首中尾字的出现概率,并通过各位置用字的概率限制和上下文规则识

别地名:在此基础上,谭红叶等(2001,2002)使.耳j转换及基本地名匹配的方法有效地提高了精

确率。黄德根等(2003)基于地名词表定义了地名的构词可信度,并进一步利用上下文信息定义

了接续可信度,取得了较好的效果。

在识别策略上,如果将己知地名及其内部构成、在语料库中的上下文标志看作是前景信息,

那么非地名构成成分和普通词则是地名识别的背景信息:以往的研究主要着力于前景特征的提

取,而较少从识别背景信息考虑。而据陈小荷(19

文档评论(0)

181****2790 + 关注
实名认证
内容提供者

硕士研究生

1亿VIP精品文档

相关文档