


  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘 要 随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正广泛应用于有哪些信誉好的足球投注网站引擎、站点结构分析、页面有效性分析、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本项目面向互联网中存在的海量教育资源,对Web上满足特定主题的信息的有效采集进行研究。 基于主题的Web教育资源采集技术的研究主要有三个研究内容:本体构建技术研究、主题爬虫技术研究以及网页文本分类技术研究。 网页文本分类技术被广泛应用到有哪些信誉好的足球投注网站引擎中,本文对文本分类技术进行研究,介绍文本分类的基本过程,论述文本预处理、分词以及特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨网页文本分类技术。 采用支持向量机技术,设计并实现了一个开放的基于主题的网页文本分类系统。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。 关键词:主题,分词,向量空间模型,文本分类,支持向量机 Abstract With the rapid expansion of information on the Web , the Web -based services are gradually flourished . As the basic and important component of these information services , Web information collection is being widely applied to the search engine site structure analysis, analysis of the effectiveness of the page , the user interest information and personalized access to tap a variety of applications and research . However , as people of various information services require increasingly high , the traditional information collection based on the entire Web are increasingly powerless , it is unable to collect timely information to the Web enough , can not meet the growing individual needs. To this end , the project facing massive educational resources on the Internet that exist on the Web to meet the specific topic of the collection of information on effective research . Research topics of Web -based educational resource acquisition technology three main research contents: ontology construction technology research , technology, and research topics reptiles page text classification technology research . Web text classification technologies are widely applied to the search engines , this paper the basic process of text classification technology research , introductory text classification , discusses the text pre-processing, segmentation and feature extraction methods discussed Naive Bayes , K nearest neighbor , support vector machines , v



