网站大量收购闲置独家精品文档,联系QQ:2885784924

生物医学文本中命名实体识别研究.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物医学文本中命名实体识别研究

生物医学文本中命名实体识别研究 张向喆 赵洪波 王起山 王明辉 潘玉春* (上海交通大学农业与生物学院 上海 200240) 摘 要:命名实体识别是对生物医学文本进行信息处理的关键技术。准确的命名实体识别工具是对文本进行后续工作如信息提取或文本分类等的先决条件。经过多年的研究,生命科学领域命名实体识别取得了一定的进展。本文总结了生物命名实体的特征,分析了基于不同方法的命名实体识别系统,并展望了未来的发展趋势。 关键词:生物信息学 命名实体识别 生物医学文献 Research on Named Entity Recognition from Biomedical Literature Abstract: Named entity recognition (NER) is a key technology of biomedical text processing. Precise NER tools are a prerequisite for many applications working on text, such as information extraction or document classification. Over the past years of research, NER has made some progress in the life sciences. In this paper, the characteristics of biological named entities are described, the variant methods underlying most NER systems sketched, and a view of the future of NER given. Keywords: Bioinformatics, Named Entity Recognition, Biomedical Literature 1 引言 目前最常用的文本数据库是MEDLINE(生物医学文献引文数据库)。MEDLINE是由美国国家医学图书馆(National Library of Medicine,NLM)于1966年开始建立的,发展至今,已有42年历史。该文献库现已收录了在全世界70多个国家发行的超过4800种的权威期刊,收录的文献总量超过1600万条(数据来自/Literature/),并且以每个月5~10万条纪录的速度增加。面对如此快速增长的海量数据,迫切需要一些强大的自动化的工具来对它们进行挖掘,以期快速、准确、有效地获取需要的信息。主要涉及到的自然语言处理和信息技术有信息检索、信息抽取和文摘生成等。利用这些技术获得储存在文献中的有用知识,命名实体识别(name-entity recognition, NER)是其中最关键的一步,因此命名实体的识别成为自然语言处理(natural language processing, NLP)研究的一个方向,越来越受到人们的关注和重视。 MEDLINE数据库的知识同样可以为畜牧业服务,与传统选育方法相结合的分子标记辅助选择(MAS)能够加速家畜、家禽等重要经济性状的改良,分子标记的选择就是我们要解决的一个重要问题。一般情况下我们是通过比较基因组学的方法来选择分子标记,然而随着人类、小鼠等模式生物基因和蛋白质序列的发布和基因芯片技术的发展,MEDLINE数据库中相关的文献呈指数级增长,因此面对如此多的文献资料,我们不可能将与某一性状相关的文献全部一一浏览,以确定某基因可以作为对该性状有影响的候选基因进行研究,这就需要使用信息抽取技术来确定基因是否与性状相关,而进行信息抽取的关键技术之一就是命名实体的识别。 本文所涉及的命名实体是指生物医学文献中的生物命名实体(Bio-NER)如基因、蛋白质和细胞等的名称。生物命名实体是生物医学文本中基本的信息元素,是正确理解生物医学文本的基础。生物命名实体识别的质量会直接影响到对生物医学文本进行信息检索、信息抽取、文本分类、文摘生成和文本挖掘等的一系列后续工作,例如在信息抽取中如果没有事先识别生物命名实体,就不可能识别生物实体之间的关系、得到与此实体相关的信息等,因此从文章中获取有用的信息就离不开生物命名实体的识别;又如Jessen T.K.等[1]在文本中提取蛋白质互作信息,要获得蛋白质互作信息的第一步就是蛋白质名称的识别。在生命 基金项目:国家高技术研究发展计划(863计划)(课题编号: 2006AA10Z1E3); 国家自然科学基金(课题编号:; 国家重点基础研究发展计划:“973”计划(课题编号: 2004CB117502; 2006CB102102); 农业部94

文档评论(0)

daoqqzhuan2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档