- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
XML重复对象检测系统的设计与实现-计算机软件与理论专业论文
I
I
摘 要
随着 Internet 和信息技术的高速发展,XML 文档作为数据存储介质应用范围越来 越广泛,XML 数据的重复元素检测问题已经引起了从事数据库和 Internet 应用等研究 人员的大量关注。而 XML 数据结构的多样性,给 XML 元素相似性判断带来很大困难。 为了有效的清除 XML 数据中的重复元素,研究了 XML 重复元素识别规则,设计和实 现了重复 XML 元素检测系统。
研究了重复 XML 元素判定标准、相似字符串识别和 XML 元素相似度计算等问题, 分析出 XML 重复元素检测的关键是如何有效地处理结构多样性的问题和如何处理父、 子元素间的依赖关系,并设计实现了重复 XML 元素检测系统。检测系统主要由文档预 处理模块、相似字符串识别模块和元素相似度计算模块组成。
在检测系统实现方面,给出了一种自顶向下、多重过滤的检测方法。通过对 XML 数据存储结构的分析,给出了重复 XML 元素对象的定义;通过文档预处理在一定程度 上解决了 XML 结构多样性的问题;通过设计多种过滤条件,有效的降低了检测字符串 相似度和 XML 元素相似度的计算量;通过自顶向下的遍历解决了 XML 元素父子元素 间的依赖关系。设计实现了 Dirty XML Generator(DXG)工具,用来生成实验数据。 为了说明检测系统的正确性和过滤条件的有效性,通过 DXG 工具往 XML 数据内 引入了结构错误和字符串错误两种类型的脏数据,对每个过滤条件都进行了单独的分 析,对检测系统的正确性和效率也进行了分析。最终说明了所有过滤条件都是有效而
且高效的,检测系统检测的结果也和预先引入的脏数据一致。
关键字:重复元素检测系统, 可扩展标记语言, 相似字符串, 多重过滤, 自顶向下
II
II
Abstract
With the rapid development of the Internet and information technology, the scope of application of XML documents as a data storage medium are more widely, great attentions have been paid to the problem of detecting duplicate XML elements. And the diversity of XML document’s structure has caused great difficulties to the similar detection of the XML elements. To effectively remove duplicate elements in XML documents, recognition rules of duplicate elements had been studied, and a duplicate XML element detection system had been designed and implemented.
The criteria of repetitive elements, identifying similar strings and similarity calculation of XML elements had been studied. And concluded that the key problem of detecting duplicate XML elements is how to effectively deal with diversity issues and how to find the complex dependencies between the parent and the sub-elements, and a duplicate XML element detection system had been designed and implemented. The detection system consists of document pre-processing module, the module of identifying similar strings and the module of the similarity calculation of XML elements.
In the field of completing the detection system, a top-down, multi-detection filter detection
您可能关注的文档
- Wnt信号通路抑制蛋白Chibby在喉癌发生中的作用-耳鼻咽喉科学专业论文.docx
- Wnt信号通路调控肺腺癌干细胞特性的分子机制-肿瘤学专业论文.docx
- WO3及其复合纳米材料的制备与气敏性能研究-无机化学专业论文.docx
- WO3石墨烯复合材料的可控合成及室温气敏性能研究-材料学专业论文.docx
- WO3的水热诱导合成及其应用研究-凝聚态物理专业论文.docx
- Wording 统一字典系统关键字查询模块的研究与实现-软件工程专业论文.docx
- WO3纳米线-NO2吸附体系电子性能及其Ti掺杂的理论研究-微电子学与固体电子学专业论文.docx
- WOMIMO系统中鲁棒干扰对齐方法的研究-信息与通信工程专业论文.docx
- word教程-外国语言学及应用语言学专业论文.docx
- WO3纳米晶微观形貌、物相和晶面结构控制及气敏性能研究-材料学专业论文.docx
- 2023年贵州省贵阳市中级会计职称经济法真题(含答案).pdf
- 区域生态环境建设——高考地理一轮复习大单元知识清单和练习(解析版).pdf
- 2023年国家电网(财务会计类)专业备考题库资料(计算简答题部分).pdf
- 2024-2025北师大版4四年级数学上册(全册)测试卷10套(附答案).pdf
- 2023-2024学年山东省德州市齐河县统编版四年级上册期末考试语文试卷(含答案解析).pdf
- 2024-2025学年江西省九江市初三第二学期期末考试语文试题(含解析).pdf
- 2024-2025学年福建省漳州市诏安县初三年级下册期末考试英语试题(含答案).pdf
- 2024-2025学年湖北重点学校高二数学上学期9月联考试卷(附答案解析).pdf
- 消防装备维护员(高级技能)考试复习题库(供参考).pdf
- 文言文之人物形象(2大陷阱:忽略故事情节+概括能力不足)-2024年中考语文考试易错题(原卷版).pdf
文档评论(0)