- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
基于生物医学文献的蛋白质关系发现的论文
计算机应用论文
?
??
?
?
?
?
?
?
???
?
?
?
?
?
?
?????????????????????作者:彭春艳张晖包玲玉陈昌平
论文关键词:知识发现生物命名实体识别实体关联
论文摘要:实验提出了一种基于词频统计的蛋白质关系知识发现方法.该方法首先通过生物命名实体识别技术识别出蛋白质实体.然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。
1引言
分子生物学研究的飞速发展,使生物医学文献呈指数级增长。如此多的文献资源,为科研人员运用数据挖掘和文本挖掘技术,发现隐含的、有价值的知识提供了有利的条件。
由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文本挖掘是一个交叉的研究领域,它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术,可以发现许多有用的信息。一些科研人员利用文本挖掘工具,发现了许多对人类有用的知识,例如:鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外,从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。
2相关研究
生物医学的知识发现,一般针对文献进行研究。WWW..CoM基于文献的知识发现,主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的swanson教授提出了基于单词的词频统计方法。首先统计出共出现的单词的频率,然后对文献集进行分析。通过这种方法,swanson发现了许多对人类有益的知识。例如,鱼肝油对于雷诺氏症的治疗作用,镁的缺失会引起偏头痛,某些病毒可以成为潜在的生化武器等等,这些发现都得到了临床上的证实。
hristovski日将关联规则挖掘引入了基于文献的知识发现。他将生物文献看作数据库中的事务,而用来代表文献内容的词则看作是规则中的项,通过设置支持度阈值和置信度阈值来产生关联的词汇。wren为词汇间具有信息的关联。他使用互信息方法来计算词的关联度,通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性,可以用来推广到很多的研究领域。
weebeilq等人设计了一个文本挖掘工具dad系统。它利用自然语言处理系统metamap将文献中的语句映射为umls本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用dad系统找出了生姜潜在的医疗作用。在关联规则挖掘中,有效阈值的设定很困难。如果阈值设置的过低,会产生大量的候选规则,而设置的过高,则有可能过滤掉许多有意义的规则。另外,基于语义的方法,需要构建领域本体,这需要许多专业人士的共同参与。因此,本文在swanson的理论基础提出了一种基于命名实体的词频统计方法,该方法通过实体提取、句子分析等过程发现蛋白质之间潜在的关系。该方法阈值的设定对实验结果影响不大,而且不需要领域专家的参与。
3方法描述
本文实现了一个蛋白质知识发现系统。该系统使用medline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别,形成蛋白质实体列表,然后对句中的每个蛋白质实体对进行共出现频率统计,进而生成候选实体对,最后找出最高出现频率的实体对,从而发现最可能的实体关联。该系统的框架如图1所示。
3.1蛋白质实体识别
在对生物医学领域的文本挖掘中,实体识别的目的是对文本中的专业词汇,包括基因、蛋白质、dna和rna等加以确认和分类。对蛋白质的知识发现,第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法,该方法以mallet工具为基础,并增加了单词的数字、字母、以及距离依赖特性。
3.2共出现频率分析
文献挖掘有不同层次的分析单元,如单词、短语、句子、摘要或者全文。对于实体共出现频率而言,以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中,那么就称为实体共出现,而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献,提取得到共出现实体,统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高,表明这两个实体对象经常被同时提及,这暗示着这两个实体对象之间存在关联的可能性较高。相反,如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体.因此只讨论蛋白质一蛋白质实体的共出现频率。
3.3关系挖掘
通过计算共出现实体在所有句子中的出现频率,提取关联实体。根据设定不同的最低共出现频率阈值,得到不同可靠程度的存在关联的实体数据,从而发现最有可能存在关联的蛋白质一蛋白质实体对象。
4实验
4.1实
您可能关注的文档
- 博物馆藏品的信息化管理探讨.docx
- 工程造价合同管理及风险控制分析.docx
- 加强高校干部人事档案科学化管理的策略.docx
- 大数据在智慧校园应用探索.docx
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 20867.1-2024机器人 安全要求应用规范 第1部分:工业机器人.pdf
- 《GB/T 20867.1-2024机器人 安全要求应用规范 第1部分:工业机器人》.pdf
- 《GB/T 23423-2024飞机主舱集装货物装载机》.pdf
- GB/T 23423-2024飞机主舱集装货物装载机.pdf
- 中国国家标准 GB/T 23423-2024飞机主舱集装货物装载机.pdf
- 《GB/T 4706.114-2024家用和类似用途电器的安全 第114部分:饮用水处理装置的特殊要求》.pdf
- 中国国家标准 GB/T 4706.114-2024家用和类似用途电器的安全 第114部分:饮用水处理装置的特殊要求.pdf
- GB/T 4706.114-2024家用和类似用途电器的安全 第114部分:饮用水处理装置的特殊要求.pdf
- GB/T 4706.120-2024家用和类似用途电器的安全 第120部分:紫外线辐射水处理器具的特殊要求.pdf
- 中国国家标准 GB/T 4706.120-2024家用和类似用途电器的安全 第120部分:紫外线辐射水处理器具的特殊要求.pdf
文档评论(0)