孙 斌北京大学计算机系计算语言所(icl.pku.edu.cn)课件.ppt

孙 斌北京大学计算机系计算语言所(icl.pku.edu.cn)课件.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息提取作为信道模型 精品 信息提取作为信道模型 这个信道模型可以看作是一个对观察(输出)序列进行标注(Tagging)的过程: 标注集是信息提取任务规定的各个实体、关系和事件模板槽(加上一个无关标记N/A),而被标注的输出串则是适当界定好的短语串(例如通过浅层句法分析后得到的结果)。 精品 3、中文信息提取系统设计 精品 基本目标 尝试中文IE所需的各项基本/关键技术的实现 把MUC定义的技术都在中文上面试制一遍; 尽量发挥出我们自己的特色 考虑通用的/可移植的IE系统该怎么去做;结合汉语的特殊性,利用一些基础的汉语研究成果; 以实际应用(潜在)需求为导向 还是希望能够导致有用的系统,并不纯是为了学术 精品 错误匹配 06-006-004 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议4月18日在智利召开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗,向市民介绍参加首脑会议的美洲国家的历史文化。(新华社记者韩晓华摄) 精品 错误匹配 EventTemplateInstatnces ConferenceInfo Time UNKNOWN /Time Spot智利/Spot Converner UNKNOWN /Converner Title 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议 /Title /ConferenceInfo /EventTemplateInstatnces !-- 多少还是有一些用吧!-- 精品 (文本)信息提取的定义 按比较正式的说法,信息提取(Information Extraction)是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。 - 例如上面提到的会议信息; - 或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等; - 或从产品发布的新闻语料中提取某产品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。 精品 信息提取涉及到两个方面的因素 (1)用户指定感兴趣的信息特性,以及待分析的文本集(数据源); (2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。 精品 与相关信息处理技术存在实质差异: 信息检索(Information Retrieval) : 只是找出满足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。 自动文摘、文本理解 : 自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。 精品 MUC (Message Understanding Conferences) 美国政府支持的一个专门致力于真实新闻文本理解的例会,至今已举行7届。 除像一般的学术会议一样交流论文外,它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。 其主要的评测项目是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果,其中最主要的指标是准确率、查全率等。 当前,由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。 精品 MUC的IE任务定义 5个典型的提取阶段:(MUC-7 IE Task Definition Version 5.1) - NE (Named Entities) - ER (Entity Relations) - Template Scenario (Event Structures) - Coreference (Identity descriptions) - Template Merger 具体提取哪些 NE, ER, Events 以及做哪些Coref, Merger 是任务相关的(每次MUC独立定义)。 精品 各个阶段的IE任务 5个典型的提取阶段: - NE (Named Entities):提取文本中相关的命名实体,包括人名、机构/公司名称的识别 国家财政部/Org 部长 项怀诚/Person - ER (Entity Relations):提取命名实体之间的各种关系(事实) Post_of(部长,项怀诚), employee_of(国家财政部,项怀诚) - Template Scenario (Event Structures):事件 召开会议(Time…

文档评论(0)

liuxiaoyu92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档