基于树核函数的人物关系抽取研究.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于树核函数的人物关系抽取研究.ppt

基于树核函数的人物关系抽取研究 彭成 钱龙华 周国栋 报告人:彭成 苏州大学自然语言处理实验室 / 提纲 引言 相关工作 研究动机 我们的方法 实验结果与分析 下一步工作 引言 人物关系抽取 人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之间的各种社会关系。 例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。 研究意义 WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。 人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。 相关工作 基于共现的方法: Kautz等(1997): Referral Web. Mika(2005): Flink. 基于机器学习方法: Matsuo等(2006):基于决策树的C4.5分类器。 姚从磊等(2007):基于模拟退火算法。 Jing等(2007):基于命名实体识别、关系检测、事件检测。 Elson 等 (2010):基于角色名称识别和对话检测。 Agarwal等(2011):基于社会交互事件检测。 研究动机 存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅速发展并日臻成熟。 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提高其抽取性能? 人物关系抽取方法 人物关系定义 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交互关系。 基于树核函数的人物关系抽取方法 结构化信息的构造 《同义词词林》语义信息的融合 重采样技术的应用 结构化信息的构造 删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点的路径中出现并列结构时,可以删除其中的一个并列部分。 删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。 恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现的动词短语结构。 结构化信息的构造(续) 语义信息融合 语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树中加入了两个实体词汇在《同义词词林》的语义编码信息。 重采样技术的应用 实验 实验设置 人物关系语料库包括关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。 本文实验采用五倍交叉验证策略。 选择SVM作为分类器,采用的开源工具为支持卷积树核函数的SVMLight TK工具包。 评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。 本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示 p≤0.01、0.01<p≤0.05和p>0.05,即差异非常显著、显著和不显著。 实验结果——裁剪特征的影响 裁剪规则 PER-SOC Contact Total P R F1 P R F1 P R F1 SPT(baseline) 80.7 38.9 52.3 75.8 10.5 18.4 78.8 31.8 45.3 +RMV_ENTITY_CC 80.9 39.5 52.9 79.6 11.5 19.9 79.9 32.5 46.1 (80.9) (39.5) (52.9) (79.6) (11.5) (19.9) (79.9) (32.5) (46.1) +RMV_NP_CC_NP 82.4 39.8 53.5 81.7 18.2 29.6 81.6 34.3 48.3 (81.5) (38.4) (52.0) (83.3) (21.0) (33.5) (81.3) (34.0) (47.8) +EXT_RIGHT_VERB 81.8 39.6 53.3 81.2 21.5 33.9 81.0 35.0 48.8 (80.9) (38.3) (52.8) (62.0) (11.0) (18.6) (75.9) (32.6) (45.5) 结论: 1.三种裁剪策略对总体性能提升显著。 2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。 实验结果——语义信息的影响 词林类别 PER-SOC Contact Total P R F1 P R F1 P R F1 SPT-OPT(baseline)

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档