信息抽取-北京交通大学图书馆.PPT

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息抽取-北京交通大学图书馆

信息抽取(Information Extraction) 及其在数字图书馆中的应用研究 主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发 1.什么是信息抽取(IE) 先从CLEF项目说起 A Co-operative Clinical E-Science Framework (CLEF) Funded by the UK Medical Research Council Descriptive information: Clinical histories radiology reports pathology reports annotations on genomic and image databases technical literature Web based resources CLEF Architecture Outline 临床报告 从文本中实现关键信息抽取 从文本中实现关键信息抽取 形成病历 病历摘要 1.什么是信息抽取(IE) 针对目前的信息过载和数据泛滥的情况 自然语言处理(NLP) 人类语言技术(HLT) 计算机语言学(CL) 知识工程(KE) 知识管理(KM) 语义网络(Semantic Web) 智能代理(Agent Based Computing) Web智能(Web Intelligence) 1.什么是信息抽取(IE) 欧洲美发达国家提出了“知识技术”(Knowledge Technologies)这一概念 知识获取 知识建模 知识表示和可视化 知识解析和共享 知识重用 知识检索 知识的出版和分发 知识维护 …… 1.什么是信息抽取(IE) 两条研究路线 基于KDD和Data Mining的线路。从结构化的数据(如数据库中的数据)中发现新的知识。 基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。从非结构化或半结构化的数据(如Word、HTML、或PDF文件)发现新知识。“从大量的非结构化的数据中标识并抽取出事件的趋势和模型,并它们转换成为有用并可理解的信息” 集两种线路于一体的数字图书馆知识发现和知识表现的解决方案 1.什么是信息抽取(IE)? 信息抽取(Information Extraction):目前日渐成熟,并得到越来越多人关注的文本挖掘方式 1.什么是信息抽取(IE)? Hamish Cunningham Information Extraction (IE) is a technology based on analysing natural language in order to extract snippets of information. 信息抽取是一个输入/输出过程。 输入:未知文本信息 输出:固定格式、无二意性数据(信息) 这些被抽取出来的数据可以 直接显示给用户 存储于数据库或电子表格中以供随后分析 被用于索引系统,以便于将来进行检索访问 1.什么是信息抽取(IE)? Douglas E. Appelt等 信息检索和信息抽取对比 信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 而信息抽取不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户 1.什么是信息抽取(IE)? 继续对信息检索和信息抽取对比 信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容 1.什么是信息抽取(IE)? 继续对信息检索和信息抽取对比 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。 1.什么是信息抽取(IE)? 信息检索和信息抽取对比总结 功能不同。 如前所述 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。 主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发 2.信息抽取相关研究活动 IE的发展与以下研究活动密切相关: MUC(Message Understanding for Comprehension) MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extractio

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档