网站大量收购闲置独家精品文档,联系QQ:2885784924

网络信息抽取.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息抽取

第5讲 网络信息抽取 5.1 网络信息抽取基本理论 5.2 网络信息抽取的层次和方法 5.3 网络信息抽取系统 5.1 网络信息抽取基本理论 网络信息资源服务层次 情景再现:低级信息抽取(主要通过信息检索实现) 信息重组:信息抽取 知识发现:高级信息抽取(博士论文:热点词语发现、预测) 5.1网络信息抽取基本理论 网络信息抽取的路线 基于KDD(knowledge discovery in database)和data mining的路线 面向结构化数据(深层网络数据库) 基于NLP和text mining 的路线。面向非结构化数据(网页)。 5.1 网络信息抽取基本理论 网络信息抽取的概念 Line Eikvil的观点: 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。 俞士汶的观点:认为信息抽取是从文本中抽取出特定的事实信息(factual information)。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。 . 5.1网络信息抽取基本理论 网络信息抽取评价指标 信息抽取技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。 就IE而言,回召率可粗略地被看成是测量被正确抽取的信息的比例(fraction),而抽准率用来测量抽出的信息中有多少是正确的。计算公式如下: P=抽出的正确信息点数 / 所有抽出的信息点数 R=抽出的正确信息点数 / 所有正确的信息点数 两者取值在0和1之间,通常存在反比的关系,即P增大会导致R减小,反之亦然。 评价一个系统时,应同时考虑P和R,但同时要比较两个数值,毕竟不能做到一目了然。许多人提出合并两个值的办法。其中包括F值评价方法: 其中 是一个预设值,决定对P侧重还是对R侧重。通常设定为1。 这样用F一个数值就可很看出系统的好坏。 5.1网络信息抽取基本理论 网络信息抽取评价指标 训练集、测试集、评价指标 技术类稿件的写法:科技文献术语的自动抽取技术研究与分析.pdf IE的发展与以下研究活动密切相关: MUC(Message Understanding for Comprehension) MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extraction) DUC(Document Understanding Conferences) MUC之于IE,正如TREC之于IR 也有人们认为MUC是Message Understanding Conference或Message Understanding Competition 20世纪80年代未由美国国防部的DARPA(Defense Advanced Research Projects Agency) 发起 MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型 NE。命名实体识别(Named Entity Recognition) MET。多语种实体识别任务(Multi-lingual Entity Task)信息抽取 TE。模板元素(Template Element)信息抽取 CO。参照(Coreference)信息抽取 TR。模板关系(Template Relation)信息抽取。 ST。情节模板(Scenario Template)信息抽取。 5.2 网络信息抽取的层次和类型 NE(Named Entity Recognition)命名实体识别 最为基础的类型,此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。 MUC测评识别并抽取出人名,组织名,日期,时间,地点,以及某种类型的数字表达式(如货币数量,百分数),并在文本中对这些信息进行标注。 NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,N

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档