一种新的基于Ngram模型的重复软件缺陷报告检测方法.docx

一种新的基于Ngram模型的重复软件缺陷报告检测方法.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种新的基于Ngram模型的重复软件缺陷报告检测方法

2010年4月西北工业大学学报Apr.2010第28卷第2期JournalofNorthwesternPolytechnicalUniversityV01.28No.2一种新的基于N—gram模型的重复软件缺陷报告检测方法李宁,李战怀,张利军(西北工业大学计算机学院,陕西西安710072)摘要:软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告。将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N—gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N·gram模型法与向量空间模型法相比。重复缺陷的查全率(RecallR砒e)提高了25%-55%。关键词:自然语言处理系统,重复缺陷报告,N—gram方法。文本相似度中图分类号:Tl弓11文献标识码:A文章编号:1000-2758(2010)02-0298-06软件缺陷报告是软件开发维护工作中产生的重可以检测到67%一93%的重复缺陷,而若仅使用自要软件质量数据之一,随着软件规模的增长软件缺然语言信息只能检测到43%一72%的重复缺陷。陷数据库日益庞大。目前许多大型软件都采用多人现有的重复报告缺陷检测技术如果仅利用缺陷并行测试的方法,该方法有效提高了软件测试效率,文本信息,查全率比较低,而利用文本信息与执行信但同时也使得软件缺陷数据库中的重复缺陷报告迅息结合虽然可以提高重复缺陷的查全率,但由于执速增加。在开源软件中该问题尤为突出。针对开源行信息需要单独获取,成本增加、操作复杂而且有的软件Firefox的软件缺陷数据的统计分析【11表明重缺陷报告可能获取不到执行信息。复(Duplicate)缺陷的比例高达30%。如果能够准本文针对以上不足,提出了一种低成本、操作简确地自动检测重复缺陷报告,将会大幅度节省宝贵单、查全率高的新方法:基于N—gram模型的重复软的软件开发维护成本。件缺陷报告检测方法。通过对Ftrefox缺陷库的验目前,研究者已经提出了一些方法进行重复软证表明,该方法与传统的VSM方法相比,重复缺陷件缺陷报告的自动检测L2。】,主要通过基于向量空报告的查全率提高了25%一55%。文中首先对该间模型(VectorSpaceModel,简称VSM)的文本相似方法的相关背景知识进行介绍,其次详细说明了该度计算实现。RunesonP等人嶂1提出了用自然语言方法的具体内容,最后通过实验结果进行比较,验证处理技术(NaturalLanguageProcessing,简称NLP)检了本文的结论。测重复缺陷。他们针对SonyEricssonMobileCorn—munications进行了案例验证,结果表明约有2/3的1相关背景知识重复缺陷报告可以被正确地检测到。WangXY等人【3】在其研究基础之上,提出了一种将自然语言信1.1软件缺陷报告息与执行信息结合起来检测重复缺陷的新方法。通软件缺陷报告的形式虽然千变万化,但其处理过对Firefox缺陷库的验证对比实验表明,该新方法流程和报告核心内容都基本相同。软件缺陷报告基收稹日期:2009-03-24基金项目:国家自然科学基金资助作者简介:李宁(1982一),女,西北工业大学讲师,博士研究生,主要从事软件工程、软件测试及数据挖掘的研究。万方数据第2期李宁等:一种新的基于N-gram模型的重复软件缺陷报告检测方法本都是用自然语言描述的文本信息,其内容主要包本文采用的N—gram方法是在此基础上进行了括:发现人、发现时间、重要程度、优先级、缺陷概述、一定的改进,详细说明参看2.5小节。缺陷详细现象、重现步骤以及其它相关附件等。以具有代表性的软件缺陷管理软件Bugzilla为2基于N-gram模型的重复软件缺陷例说明,Bu幽Ⅱa记录的缺陷中的自然语言信息主要检测方法包括概述(summary)和详细描述(description)。一个缺陷被提交确认(open)之后,其最终的处理意见本文提出的基于N-gram模型的方法并不是直(resolution)可能有如下几种:已修改的(Fixed),不是问题(Invalid),无法修改(Wontfix),以后版本解接对软件缺陷报告的原始文本进行处理,而是首先决(Later),保留(Remind),重复(Duplicate),无法重利用传统的基于VSM方法中的自然语言预处理方现(Worksforme)。本文重点关注“重复”类型的法对原始文

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档