基于网页的信息系统的一预处理过程.doc

下载文档 降价啦

3
0
约4.08万字
约 60页
2018-11-03 发布于福建
举报
版权申诉
保障服务

基于网页的信息系统的一预处理过程.doc

1、本文档共60页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于网页的信息系统的一预处理过程

学位论文题目：基于网页的信息系统的一种预处理过程姓名：学号：院系：计算机科学技术系专业：计算机软件与理论研究方向：计算机网络与分布式系统导师：教授 2004 年 5 月版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。摘要随着Web的迅速发展，Web上的信息越来越丰富。Web使用方便、信息丰富，人们越来越多的使用Web来寻找需要的信息。为了更好的使用Web上的信息，人们也不断的追求能够有效组织和利用网上信息的技术和系统。然而，Web上的信息存在很多问题：网页内的噪音内容多、Web上近似网页量大以及缺乏必要的元数据信息，这些问题严重影响了Web信息系统的服务质量。针对Web信息系统的共性需求，本文提出了一个预处理框架及相应的方法。该预处理框架包括了三个预处理工作：网页净化、近似网页删除和网页元数据提取。通过预处理过程，原始网页集中的近似网页被删除，而保留下来的网页被净化并转化为一个统一的结构化模型（称之为DocView模型）。该模型中提供了各个领域需求较多的元数据和内容数据，它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素。本文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息，而这些额外信息是该领域中其他方法所必须的；另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来，可以避免相同中间过程的重复执行，从而提高信息提取效率。本文中提出的预处理框架和方法已经应用到了“天网”有哪些信誉好的足球投注网站引擎和网页自动分类系统中。通过使用预处理后应用系统质量的提高，验证了该预处理方法的有效性。不难看出，通过这样一个预处理过程，可以在任何一个网页集上（包括World Wide Web）搭建一个组织良好的、净化的、更易使用的信息层。关键词：万维网, 数据预处理，数据净化，近似网页识别，元数据提取 Abstract With the rapid expansion of the Web, the content of the Web become richer and richer. People are increasingly using Web to find their wanted information because of the Web’s convenience and its abundance of information. In order to make better use of Web information, technologies that can automatically re-organize and manipulate web pages are pursued such as Web information retrieval, Web page classification and other Web mining work. However, there are many noises in the Web such as the noise content in the Web page (local noise) and near replica Web pages in the Web (global noise), which decrease the quality of the information on the Web, and consequently descrease the quality of the Web information systems seriously. Also, meta data of the Web pages are widely used in Web information systems, but they are not described explicitly. Some of these problems are never met in the traditional work. In this thesis, we propose a new preprocessing framework and the corresponding approach to meet the common requirements of several typical web information systems. The framework includes three parts: We