教育类网站文本信息提取技术分析.docVIP

下载本文档

7
0
约3.39千字
约 6页
2016-02-27 发布于北京
举报
版权申诉

教育类网站文本信息提取技术分析.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

教育类网站文本信息提取技术分析.doc

教育类网站文本信息提取技术分析　　摘要网络信息呈指数式发展，教育类网站更是蓬勃发展。开发一种教育类网站文本信息提取系统用于提取并分析网页中文本信息，实现通过文本对网页进行检索。　　关键词教育类网站；中文分词；信息检索　　中图分类号：TP393 文献标识码：B 　　文章编号：1671-489X（2013）36-0042-02 　　1 引言　　现代社会互联网已经融入人们生活的方方面面，各种信息资源充斥着人们生活的每个角落。随着互联网的发展，信息资源也在以指数级的速度发展。各种教育类的网站玲琅满目，却使得学习者在网络中获取自己想要的信息变得困难起来。因此，寻找一种合适的检索方法就变得尤为重要了。　　在众多的网页资源之中，文本信息始终是最重要的一环，提出一个合适的方法，提取网页中的文本信息，并能够实现通过文本信息对网页进行检索，一定可以大大缩短用户的有哪些信誉好的足球投注网站时间，并提高准确率。　　2 文本信息提取相关技术　　万维网技术万维网（World Wide Web），即通常所说Web，最早可以追溯到Tim Berners-Lee提出的“Distributed hypermedia systems engineering”，也就是分布式超媒体系统工程。这个由Berners-Lee于1980年建立的ENQUIRE，被公认为是现代万维网的源头。　　经过20多年的发展，万维网形成了一种独特的工作机制，即Client/Server（客户机/服务器）模式，这种机制的工作原理也较为简单：首先用户通过客户端的软件发送请求，客户端的软件会对客户的请求进行初始化，然后将初始化后的请求发送给服务器，服务器在收到请求之后，响应这一请求并将相关数据发送给客户端。　　万维网是一种以DOM结构为基础而建立的模型，早已成为当前网络信息资源的主流。万维网主要是以3个部分作为基础的：首先是HTML，也就是超文本的标记语言；然后是HTTP，即超文本的传输协议；最后是URL，指的是资源定位符。WWW技术可以支持丰富的多媒体，而且管理简便、实现简单，还拥有超高的应用效率，已经成为网络上最主要的应用之一，在教育领域应用十分广泛。　　超文本标记语言结构目前，使用HTML（超文本标记语言）来描述网页已经成为主流。作为一种使用简单且兼容性、迁移性极佳的语言，其使用的“文档格式定义”的概念，可以用于制作包含各种资源的网页，并可以提供各网页之间的链接。　　HTML语言设计简单，结构灵活，是Internet上最流行的标准格式。HTML文档是以纯文本文件形式存在的，主要包括4个部分的内容：标记，是指标签符号及其组成元素，由成对出现的开始标签和结束标签组成；属性，一般是对标签进行提供单元的某些信息或补充说明；实体，用于表示被占用的特殊符号；注释，用于标注并不会在客户端显示的内容。　　HTML是一种非结构化与半结构化相结合的语言，虽然它将资源数据按照一定的方式进行了组织，但是由于资源本身的数据是非结构的，这就导致了其半结构化的结构模式。　　中文分词技术中文分词技术是中文信息处理的基础与关键，实际上就是把一个句子切成若干个词。和英文不同，中文的句子中词语与词语之间是没有较为显著的分隔的，所以处理起来要复杂得多。在该领域中已经有如下几类算法：以统计为基础的方法，首先对词出现的频率进行统计，不需要构建词典，使用之前对统计好的结果词进行切分，使用起来较为复杂且准确性得不到保证；以字符串的匹配为基础的方法，该方法首先要构建一个分词词典，然后按照正向或者逆向的顺序把一长串汉字中的特定长度的字符串与事先构建好的词典中的词进行比较，一旦发现词典中有这个字符串，就把这个字符串切出来保存为一个词。基于分词速度与精度的考虑，本文采用的分词算法是基于字符串匹配的分词方法逆向最大匹配。　　3 教育类网站中文本信息提取系统的设计与实现　　相关文本界定网页中出现的文本信息可进行如下划分。　　1）Web标题。能对Web的主要内容进行综述的往往是Web的标题，出现在标签…之间，其中包含了Web的主旨信息。　　2）Web内容描述。Web头部标签…之间属性为description时name的内容，用于对网页的内容进行大致的说明。　　3）Web关键词。Web头部标签…之间属性为description时keywords的内容，作为网页内容的关键词对网页内容有提纲挈领的作用。　　以上三个部分的内容，基本上涵盖了这个Web的主要信息，利用这三个部分的内容信息，建立数据库，就可以很好地为有哪些信誉好的足球投注网站提供帮助。　　相关词典构建对于中文信息的处理，中文分词词典具有举足轻重的作用。本文中所采用的分词算法是逆向算法，所以构建逆向分词词典，词典包含171 031个词条，包含了