面向Stack Overflow的过时答案文本信息挖掘技术的研究.pdfVIP

面向Stack Overflow的过时答案文本信息挖掘技术的研究.pdf

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

面向StackOverflow的过时答案文本信息挖掘技术的研究

程序员技术问答网站已经成为当今社会重要的知识共享平台,Stack

Overflow(简称SO)作为当下热门的程序员问答网站,拥有千万级用户,数以

亿计的帖子,积累了大量有价值软件工程知识。技术知识最大的特点就是更新频

繁,随着时间的推移,网站内分享的技术知识可能会过时,这些过时的信息如果

没有被明确标注或记录,可能会误导求助的用户,造成开发事故。网站中过时内

容的积累会严重影响网站内容质量,但是目前StackOverflow还没有有效的机制

来处理该问题。本研究借助深度学习算法解决这一难题。

随着越来越多的决策移交给深度学习算法,模型的可解释性成为决定用户是

否信任模型判断结果的关键因素。深度学习模型端到端的黑盒设计,使得用户无

法理解的模型决策依据、验证决策的可靠性。注意力机制的出现增加了模型的可

解释性,即计算模型对样本集中注意力的范围并给予高权重,而对于无关的部分

则分配较低的权重。但是注意力机制的显著性特征提取方法在对模型进行可解释

性研究中性能显著的同时只能应用在部分模型,例如分类模型fastText、TextCNN,

在模型的结构中文本位置信息丢失,无法或只能有限的应用注意力机制。本文针

对fastText与TextCNN模型提出一种新的显著性特征可视化方法,同时应用注

意力机制的LSTM模型,分别进行可视化方法研究。可视化是为了下一步的可解

释性做了一个研究基础。

本文基于自然语言处理领域中的文本分类任务,以StackOverflow作为过时

知识挖掘的场景,进行过时答案文本信息挖掘技术的研究。

(1)数据集获取:本文从StackExchangeDataDump网站下载StackOverflow

的数据集。通过大量观察与分析,结合过时特征与数据特性,选定答案贴为过时

知识的抽取对象。

(2)数据筛选规则:本研究采取启发式方法,设定过时与非过时数据的规

则,从千万级别的数据集中抽取过时数据。

(3)数据清洗:针对StackOverflow数据特性,进行数据的预处理。提取过

时数据样本(共计542511条,过时数据的准确度达98%),对数据进行定量定

性分析,探究标签与时效性之间的潜在联系,并对过时原因和过时知识进行分类。

(4)模型改进与运用:鉴于过时数据准确度低的缺点,实验运用可解释性

的模型,来评估模型训练的结果的有效性。因此本文基于fastText与TextCNN非

序列的模型提出了一种新的显著性特征可视化方法。另外,运用注意力机制的bi-

LSTM模型,对注意力权重参数提取,进行了基于注意力机制的可视化方法研究。

(5)实验结果分析:实验最终训练出一组具有可解释性功能、判别过时答

案的模型。该方法通过标注对模型判别起到决定性作用的过时关键词,将模型判

别的结果与可视化标注的特征比较,以确定模型判定的准确性,并能解释模型做

出错误判断的原因。最后,将三种模型的性能进行评估。

研究结果表明,基于规则的数据提取方法能够准确地获取过时数据的同时,

分析了基于注意力机制的提取方法的缺陷以及模型做出错误判断的原因。三种模

型可以有效地标注过时特征,判定的结果与标注的特征信息效果一致。对Stack

Overflow的过时答案文本信息挖掘技术的研究,将有助于提高StackOverflow社

区内容质量,帮助用户辨别过时信息。最后本文建议StackOverflow发展该方法

来鼓励整个网络社区维护答案。

关键词:

StackOverflow,过时知识,注意力机制,可解释性,文本分类

Abstract

ResearchonTextInformationMiningTechnologyofOutdatedAnswers

forStackOverflow

Theprogrammer’stechnicalQAwebsitehasbecomeanimportantknowledge

sharingplatformintoday’ssociety.StackOverflow(

您可能关注的文档

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档