基于包装器的WEB信息抽取算法实现【毕业论文】.doc

基于包装器的WEB信息抽取算法实现【毕业论文】.doc

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
- PAGE I - 本科毕业设计 (20 届) 基于包装器的WEB信息抽取算法实现 所在学院 专业班级 计算机科学与技术 学生姓名 学号 指导教师 职称 完成日期 年 月 PAGE I 摘 要 【摘要】在网络飞速发展的今天,互联网成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用。互联网上存在大量的信息。人们一直在寻找一种方便、低廉的信息获取的工具,本文正是基于这种目的,试图开发一种基于包装器的Web信息抽取技术的互联网信息获取工具,该工具能快速的帮助人们获取自己想要的信息。 本论文通过对基于包装器的Web信息抽取技术进行了描述,阐述了Web信息抽取算法的意义,并介绍了Web抽取算法的实现原理和研究现状,提出了目前web数据抽取仍然存在的问题。最后选择了一类特定网页结构的页面,应用目前主流的Web抽取算法开发出了一套Web信息抽取工具。 【关键词】互联网;信息;包装器;抽取算法 Abstract 【ABSTRACT】With the rapid development of the network today, the Internet becomes an important way to get, send and transfer the information. Because of getting so much information on the internet, it gradually takes an essential part in political, economical and other aspects of daily life. People have been trying to find a more convenient and cheaper access to information tools all the times. According to this purpose, the author tries to develop a tool of information extraction technologies which is based on Web and to help people get information more quickly. The author intends to describe the technology of information extraction which is based on Web and briefly explained the significance of Web-based information extraction algorithm. What is more, the author also analyzes its theory and present situation. And he finds some shortages in this method. With applying the current mainstream of web extraction algorithm, the author, finally, chooses a kind of special web type and develop a new set of tools for Web information extraction. 【KEYWORDS】Internet; information; wrapper; extraction algorithm 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc293989875 摘 要 PAGEREF _Toc293989875 \h II HYPERLINK \l _Toc293989876 Abstract PAGEREF _Toc293989876 \h III HYPERLINK \l _Toc293989877 目 录 PAGEREF _Toc293989877 \h IV HYPERLINK \l _Toc293989878 1 系统分析与研究 PAGEREF _Toc293989878 \h 1 HYPERLINK \l _Toc293989879 1.1 课题开发背景 PAGEREF _Toc2939898

文档评论(0)

chengzhi5201 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档