- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
软件文档与代码相关性分析工具的改进研究
摘要
本文从文档检索的基本理论出发,分析了软件文档与代码之间的相关性。结合几种常用的文档检索工具的检索效果,提出了基于类继承关系的代码聚类、代码特征项分类、引入相似度词典、基于文档类型的分类有哪些信誉好的足球投注网站等4种对文档检索方法进行改进的策略。并且采用这4种策略对传统的LSI模型进行了改进,得到了改进后的基于LSI模型的文档检索方案。通过3个具体的实验,对改进生的LSI模型的有效性进行了检验。实验的结果表明,改进后的LSI模型,不认是在查全率还是在查准率方面都要明显地优于传统的概率模型和改进的概率模型。虽然改进的LSI模型有了较大幅度的检索有效度,但是其自身还存在着一些不足之处,比如,在设置t值时,不宜过大,否则会在一定程度上降低文档的查准率。根据经验做法,最好是根据具体软件文档的检索要求设置合适的t值进行检索,这样可以实现在保持一定查全率的同时,切实提高文档的查准率。
关键词:软件文档代码相关性
目录
TOC\o1-3\h\u中文摘要 1
目录 2
1引言 1
2相关工作 3
2.1概率模型(ProbabilisticModel) 3
2.2向量空间模型(VectorSpaceModel) 3
3软件特征分析 5
3.1中文软件的混合语言空间 5
3.2软件中中文文档的特征分析 5
3.3代码特征分析 6
4关联关系提取方法的改进 7
4.1基于类继承关系的代码聚类 7
4.2代码特征项分类 8
4.3引入相似度词典 9
4.4基于文档类型的分类有哪些信誉好的足球投注网站 10
5实验和结果分析 13
5.1实验1 13
5.2实验2 15
5.3实验3 16
结论 18
参考文献 19
PAGE
PAGE3
1引言
我们日常使用的软件是由一系列软件组合而成的软件系统。在这个软件系统中包含了各式各样的文档。在软件运行过程中,这些文档必须得到妥善的维护。使这些文档与代码之间形成必要的关联。这对于有效实现软件的正常功能有重大的作用。这些功能主要包括理解程序、维护软件、跟踪需求、分析变更、软件重复作用等。绝大多数文件都是用自然语言写的。很难建立一个像自然语言的分析性编程语言那样精确的解析器。有效提取这些文档与代码之间的关联信息是对其进行维护的关键。现有的文档工具不能有效地实现这种关联,而只是能够将创新部分地关联起来。Java语言是目前用途最为广泛的编程语言。用Java编程的好处是可以在文档与代码之间通过Javadoc软件自动生成一个一一对应的API文件。这个文件可以有效地实现文档与代码之间的关联。一般而言,软件系统的代码可以分成两个部分,分别由程序员编写的代码和机器自动生成的代码组成。在编写软件系统代码时,有一个通用的基本假设,那就是编写程序时,程序员使用的函数名、文件名、各种注释、类名等都包含词语意思、设计构思、逻辑表达等重要信息。以这个假设为前提,文档和代码可以通过信息检索的方法加以关联。在这个过程中,按序提取法是最常用的关联方法。按序提取法的基本思路是用文档中的关键词作为检索时的关键词,从而生成检索时的语言模型,通过检索可以形成文档和代码的对照列表。
2相关工作
近年来,在文档与代码之间建立可追溯链主要有两种方法。第一种方法是基于各种比例信号、软件原型、门等商业工具作为特定的开发方法,对代码生成、模型构建、元素转换等进行标准化,从而生成文档和代码之间的关联关系。这种方法的优点在于在代码生成过程中,文档和代码之间能够形成自动的标记。但是这种方法也有较为明显的缺点,那就是会大幅增加软件开发的工作量,而且软件编写一旦完成,这种标记即无法改变。另一种方法是Antonial和Marcus创立的概率模型,这种模型也发展成为一种较为流行的信息检索方法。在检索过程中,这种概率模型通过发挥中间变量和潜在词语意思的基础上,对文档和代码进行编译,从而在文档和代码之间建立起一种查询条件,形成一种以文档为检索对象的文献库。
2.1概率模型(ProbabilisticModel)
在使用概率模型对文档和代码进行分析并建立关联关系时,首先是在代码文件中选取特征关键词,建立文档检索的文献库。这里所说的代码文件关键词是指能够最大限度地体现文档基本信息的原始数据。这些关键词一般包括代码表中的单词或词组。其次是在文档和代码之间建立条件概率,以更好地判断文档和代码的相似性。在特定利用代码对文档进行查询时,对多个文档相似性的概率算法如下:
其中,i为文档数量,P为文档的条件概率,即在Q条件下,检索到Di文档的条件概率。在检索过程中,计算机会利用概率模型自动算出各个文档集合
您可能关注的文档
- 计算机科学与技术毕业论文-基于射频识别的刀具信息采集与管理系统设计.docx
- 计算机科学与技术毕业论文-客房管理系统的设计与实现.docx
- 计算机科学与技术毕业论文-煤矿井下高压防越级保护系统设计与实现.docx
- 计算机科学与技术毕业论文-浅谈微信公众平台在班级管理的应用.doc
- 计算机科学与技术毕业论文-人事信息管理系统设计.docx
- 计算机科学与技术毕业论文-社交媒体信息传播模型的算法性能比较研究.docx
- 计算机科学与技术毕业论文-物联网环境下电梯节点状态信息的图像采集与识别系统设计.docx
- 计算机科学与技术毕业论文-物联网环境下基于安全防控的智能锁系统的设计.docx
- 建筑工程技术毕业论文-暴雪中破坏的结构案例研究.doc
- 建筑工程技术毕业论文-基坑支护工程中边坡坍塌原因分析及处理.doc
- 河南省郑州市第一中学2017-2018学年高一下学期周测物理试题(325)扫描版含答案.doc
- 山西省怀仁县第一中学2017-2018学年高二下学期第一次月考生物试题扫描版.doc
- 河南省六市高三下学期第一次联考试题(3月)理科综合扫描版含答案.doc
- 四川省高三全国Ⅲ卷冲刺演练(一)文综地理试卷扫描版含答案.doc
- 河南省洛阳市高三第二次统考文综试卷扫描版含答案.doc
- 甘肃省靖远县高三下学期第二次联考理科综合试题扫描版含答案.doc
- 问题导学法在办公场景中的实施策略及效果评估.docx
- 退休后的个人品牌打造与传播策略.docx
- 问题解决在办公流程优化中的应用.docx
- 问题导向的办公环境创新设计.docx
文档评论(0)