网站大量收购闲置独家精品文档,联系QQ:2885784924

基于贪心森林的微博实体链接方法研究-计算机科学与技术专业论文.docxVIP

基于贪心森林的微博实体链接方法研究-计算机科学与技术专业论文.docx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 Classified Index: TP391.3 U.D.C: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON METHODS OF ENTITY LINKING IN MICROBLOG BASED ON GREEDY FOREST Candidate: Zou Xianqi Supervisor: Prof. Wang Xiaolong Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2014 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 摘 要 实体链接工作已经取得了较多的关注,其工作目的是将文本中的实体指称 链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长 文本信息,然而微博作为一种新的社交平台,对这种短文本进行实体链接又会 面临很多问题。迅速地、准确地将微博中的实体指称链接到知识库,是一项有 着十分重要意义的工作。对于科学研究来说,它可以提高机器翻译的准确度、 网页有哪些信誉好的足球投注网站的文档相关度,计算广告中有哪些信誉好的足球投注网站广告的点击率,以及相关领域知识库 构建的准确性。为了将微博中的命名实体链接到无歧义的维基百科知识库中, 本文将实体链接工作具体分为以下 3 个主要部分。 第一部分是微博中的命名实体识别。由于考虑到英文不需要分词的特殊性 质,本文将微博定位为英文微博 Twitter。长文本中命名实体识别常采用基于规 则、基于条件随机场的方法,但这些方法在面向微博的命名实体识别工作中, 效果并不显著。本文采用标注的潜在狄利克雷主题模型,生成实体指称在实体 类别上的先验分布,利用贝叶斯法则得到实体指称属于某个命名实体类别的概 率。将标注的潜在狄利克雷主题模型与条件随机场的预测结果相结合,实验结 果表明,融合后的模型对微博这种短文本进行命名实体识别可以取得较好的效 果。 第二部分是候选实体的生成及其特征提取。生成候选实体常采用基于维基 百科的查询扩展方法,但是这种方法的弊处在于生成候选实体数量过多,会引 入较多有歧义性的候选实体。采用传统的支持向量机模型,对这些候选实体进 行筛选,得到覆盖率较高并且数量较少的候选实体。在特征提取方面,针对微 博短文本的特点,用局部特征和全局特征来刻画候选实体和实体指称,采用实 体链接常用的基本模型对两种类别特征进行全面的分析。 第三部分是候选实体排序。采用基于排序对和基于排序列表的方法对候选 实体进行排序,并且对两种方法进行了分析与比较。针对实体链接中不考虑非 目标实体的排序先后顺序,采用正则化的贪心森林模型解决这一问题。实验结 果表明这种改进后的梯度提升决策树方法,可以有效的提高候选实体排序的效 果。 关键词:候选实体;主题模型;全局特征;正则化的贪心森林 -I- Abstract Entity linking has received much more attention. The purpose of entity linking is to link the mentions in the text to the corresponding entities in the knowledge base. Most work of the entity linking is aiming at long texts, such as BBS or blog. Mi- croblog as a new kind of social platform, however, entity linking in which will face many problems. Quickly and accurately linking the mentions into the knowledge base is a very important work. For scientific research, it can improve the accuracy of machine translation, the relevancy of Web search documents, click-through rate of search adverti

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档