- 1、本文档共73页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I
I
摘要
摘 要
随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们 提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到 自己所需的信息,有哪些信誉好的足球投注网站引擎正是在这一背景下酝酿而生,用户可以通过它快速查 找信息。有哪些信誉好的足球投注网站引擎由最开始的半机械半人工的目录式有哪些信誉好的足球投注网站发展到现在主流的全文 有哪些信誉好的足球投注网站引擎和垂直有哪些信誉好的足球投注网站引擎,但就目前最成熟的全文有哪些信誉好的足球投注网站技术,在单个领域上的网 页收集能力,还是有一定的欠缺,导致查准率和查全率达不到理想的目标。虽然 垂直有哪些信誉好的足球投注网站技术在单个领域上的信息收集能力有所增强,但是依然像全文有哪些信誉好的足球投注网站一样, 提供基于网页级的有哪些信誉好的足球投注网站服务,需要用户进行再次过滤。因此就出现了对象级垂直 有哪些信誉好的足球投注网站这一新的有哪些信誉好的足球投注网站模式,它是提供基于特定领域的对象级有哪些信誉好的足球投注网站,提交给用户的查 询结果是有哪些信誉好的足球投注网站系统经过一系列的抽取集成所形成的对象实体。
但是目前现有的对象级有哪些信誉好的足球投注网站引擎在对象信息抽取模块,都属于半自动化模式, 前期需要大量人力对部分网页进行标注,从而获取对象抽取的先验知识。因此本 文针对这种情况,研究并改进了 RoadRunner 全自动抽取算法,设计实现了对象级 垂直有哪些信誉好的足球投注网站引擎中的自动信息抽取模块。
本文主要在以下两个方面进行了改进:
(1)改进了简单树匹配算法,提高了判断相似的准确率。原始的简单树匹配 算法对网页 DOM 树结构中所有标签节点进行统一处理,并没有考虑到迭代标签的 特殊性,改进后对迭代标签进行了一定的处理后再进行匹配比较。
(2)改进了 RoadRunner 算法的属性标注模块,利用不同包装器之间抽取对象 的关联进行交叉标注,提高了抽取数据的属性标注率。RoadRunner 算法本身采用 的属性标注技术是基于网页信息中属性值和属性名成对出现,而大部分网页中存 在部分属性名缺失的情况。
最后本文利用上述改进的算法实现了对象信息抽取系统,并在图书领域进行了 抽取测试。
关键词:对象级有哪些信誉好的足球投注网站引擎,Web 信息抽取,RoadRunner 算法,属性标注
II
II
ABSTRACT
ABSTRACT
With the development of information technology, various kinds of websites are available on the Internet and provide different kinds of information. However, how to find the exact information we need is a new challenge. Search engines such as Google came up in this background, helping users to locate information they need quickly. Search engine was developed from original catalogic search which ran part-artificially to current mainstream full text search engine and vertical search engine. Currently, the most mature full text search engine has its own drawbacks which cannot achieve ideal effect of recalling ratio and precision ratio in some specific domains.Vertical search engine makes up for some drawbacks in the specific domains, which can collect more related information. But it only provides users with webpage links as the result, just like what the full-text search does.
Hence, a new search technology called object level vertical searching has been created. This search technology can search on the specific domain based on the objects. The query results are objects which are relatively few rather than a series of webpage link
您可能关注的文档
- 基于特征检测的分布式网络报警系统-计算机应用技术专业论文.docx
- 基于人工神经网络的地铁环控热负荷计算-供热通风与空调工程专业论文.docx
- 基于退火遗传算法的城市给水管网优化研究-市政工程专业论文.docx
- 基于数据挖掘的焦炉加热过程建模与优化-控制科学与工程专业论文.docx
- 基于人本理念下高中化学新课程教学模式的建构-学科教学·化学专业论文.docx
- 基于神经网络技术的空间碎片损伤模式识别研究-人机与环境工程专业论文.docx
- 基于统计学习的视频文字检测与定位研究-通信与信息系统专业论文.docx
- 基于取向平均方法多晶铁电薄膜残余应力的测量材料科学与工程专业论文.docx
- 基于数字图像处理的玉米品种识别研究-计算机应用技术专业论文.docx
- 基于遗传算法的多目标柔性资源调度研究-工业工程专业论文.docx
- 2024年证券分析与咨询服务项目投资申请报告代可行性研究报告.docx
- 2024年铬酸酐项目资金申请报告代可行性研究报告.docx
- 2024年清洁胶项目资金申请报告代可行性研究报告.docx
- 2024年肉松饼项目投资申请报告代可行性研究报告.docx
- 2024年陆上泵项目资金需求报告代可行性研究报告.docx
- 2024年未硫化复合橡胶及其制品项目资金需求报告代可行性研究报告.docx
- 2024年精密温控节能设备项目资金筹措计划书代可行性研究报告.docx
- 2024年汽车覆盖件模具项目资金筹措计划书代可行性研究报告.docx
- 宋词行书钢笔字帖.pdf
- 我的暑假生活作文三年级300字10篇.pdf
文档评论(0)