跨项目缺陷预测中训练数据选择方法.docVIP

下载本文档

101
0
约1.31万字
约 17页
2017-03-03 发布于北京
举报
版权申诉

跨项目缺陷预测中训练数据选择方法.doc

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

跨项目缺陷预测中训练数据选择方法.doc

跨项目缺陷预测中训练数据选择方法　　摘要：跨项目缺陷预测（CPDP）利用来自其他项目的缺陷数据预测目标项目的缺陷情况，为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能，因此，需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集，从训练数据选择方面，分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明：使用不同的相似性度量方法选出的训练数据质量不同，其中余弦相似性与相关系数两种方法效果更好，且最大改进比例达到6.7%；同时，根据目标项目的缺陷率，发现余弦相似性更适合于缺陷率高于0.25的项目。　　关键词：软件质量保证；缺陷预测；跨项目缺陷预测；相似性度量；数据选择　　中图分类号：TP310 　　文献标志码：A 　　文章编号：1001-9081（2016）11-3165-05 　　0 引言　　早期软件缺陷预测的研究主要是使用软件项目的历史数据作训练，将得到的模型再用于该项目未来版本中软件缺陷的预测，统称为项目内缺陷预测（Within-Project Defect Prediction， WPDP）。WPDP的预测效果受项目历史数据的量影响明显[1]，而在实践中要达到历史数据足够充足并不容易，特别是对于新的或者还不活跃的软件项目而言。例如Rainer等[2]针对SourceForge平台上软件项目的活跃度进行了分析，发现仅有1%的软件项目被认定为活跃。　　针对WPDP中训练数据不足或获取不易的瓶颈，一些研究者主张利用其他项目的数据来进行预测模型训练的观点，提出跨项目缺陷预测（Cross-Project Defect Prediction， CPDP）方法，从训练数据选取的角度解决了WPDP面临的上述问题[3-8]。CPDP的可行性虽已从预测精度、代价敏感、实际应用等方面得到初步验证[3，5-6]，但整体性能相对WPDP依旧还有待提高。　　影响CPDP性能的一个最主要问题就是如何为目标项目选择合适的跨项目训练数据。互联网上有着提供大量免费的、可供获取的公开缺陷数据平台，如PROMISE和Apache。如何有效利用这些资源，为目标项目选择最相关的异源数据作训练集，直接关系到CPDP的预测效果。Turhan等[7]表示盲目地为CPDP选择训练数据，容易导致预测结果的高误报率，为此，研究者们提出了各种选择策略，包括：从不同粒度（版本级[8-9]和实例级[10]）、不同角度（训练集驱动[4]和测试集驱动[6-7]）来实现训练数据的选择。其中，在实例级的选择过程中，主要通过计算实例之间的欧氏距离（Euclidean Distance， ED）或余弦相似度（Cosine Similarity， Cosine）来进行训练数据选择，从而提高CPDP的预测效果。　　为目标项目选择合适的训练实例构成训练数据集，本质上是寻找与目标实例更相似的候选训练实例。关于相似性度量的方法比较多，除以上提到的两种之外，常用的还有曼哈顿距离（Manhattan Distance， MD）、马氏距离（Mahalanobis Distance， MD）和相关系数（Correlation Coefficient， CCoef）等。在已有关于CPDP的训练数据选择研究中，还未有工作系统地研究训练数据选择过程中不同相似性度量方法对预测结果的影响。因此，本文将对以上问题进行补充回答，解决以下两个研究问题，并为CPDP情境下各种相似性度量方法的选择提供指导依据。　　RQ1 CPDP训练数据选择过程中，相似性度量方法的选取是否影响预测效果？　　RQ2 采用哪种相似性度量方法得到的CPDP效果更好？　　1 相关研究　　在软件工程领域，软件缺陷预测研究一直是个热点，人们主要围绕建模方法、度量指标、数据处理、评价方法等方面进行研究[11-14]，但已有研究主要聚焦于同一软件项目的不同版本间的预测，即项目内缺陷预测（WPDP），但此类预测的结果对历史数据具有很大的依赖性，对于局部数据受限的项目效果欠佳。为此，有研究者提出建立跨项目缺陷预测（CPDP）方法。　　Briand等[9]最早提出跨项目缺陷预测，利用开源软件Xpose的缺陷数据为Jwriter作预测。Zimmermann等[1]首次从数据、领域、过程三个方面对CPDP进行分析验证，发现成功的CPDP并不是很多，且用于CPDP的项目之间预测不具对称性。随后，为验证CPDP的可行性，Rahman等[5]从成本敏感性角度对比了与WPDP的优势；He等[3]从实践经验评价的角度验证了CPDP结果的可接受性。　　构建CPDP的一个主要问题是如何从