中文信息处理报告.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理报告.doc

中文信息处理报告 课题名称 有哪些信誉好的足球投注网站引擎中的关键技术及解决 学院(系) 电子信息与工程学院 专 业 计算机科学与技术 学 号 072337 学生姓名 张志佳 完成时间 2009年 1月 3 日 目前,国内的每个行业领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取必威体育精装版的信息,中文有哪些信誉好的足球投注网站引擎。中文有哪些信誉好的足球投注网站引擎与西文有哪些信誉好的足球投注网站引擎在实现的机制和原理上大致同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而汉语自动分词技术就是其中很关键的部分。汉语自动分词到底对有哪些信誉好的足球投注网站引擎有多大影响?对于有哪些信誉好的足球投注网站引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对有哪些信誉好的足球投注网站结果的相关度排序。分词准确性对有哪些信誉好的足球投注网站引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于有哪些信誉好的足球投注网站引擎来说也是不可用的,在Internet上有上百亿可用的公共Web页面,如果分词耗用的时间过长,会严重影响有哪些信誉好的足球投注网站引擎内容更新的速度。因此对于有哪些信誉好的足球投注网站引擎来说,分词的准确性和速度,都需要达到很高的要求。要求数据量达到亿单次查询毫秒级每日查询总数能支持千万级撇开有哪些信誉好的足球投注网站引擎要用到的数量庞大的服务器硬件和速度巨快的网络环境不提就单单说说有哪些信誉好的足球投注网站引擎中软件部分的三大核心技术我个人以为一个优秀的有哪些信誉好的足球投注网站引擎它必需在下面三个方面的技术必须是优秀的中文分词网络机器人和后台索引结构网络机器人和后台索引结构有哪些信誉好的足球投注网站引擎的,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中有哪些信誉好的足球投注网站排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。有哪些信誉好的足球投注网站引擎工作原理图1 有哪些信誉好的足球投注网站引擎工作原理图中的相关术语说明如表1: 表1 术语 解 释 说 明 有哪些信誉好的足球投注网站器 有哪些信誉好的足球投注网站器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。 索引器 索引器的功能是从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 排序器 由有哪些信誉好的足球投注网站系统程序从网页索引数据库中找到符合该关键词的所有相关网页只需按照现成的相关度数值排序,相关度越高,排名越靠前。 一,有哪些信誉好的足球投注网站引擎中的关键技术介绍 在介绍关于有哪些信誉好的足球投注网站引擎中的分词技术是如何解决的,相对有哪些信誉好的足球投注网站引擎中其它的一些关键技术做一下简要的介绍,对谈一下自己对相关技术的一些想法。其实这些技术和中文分词技术是很有关联性的。可能给你一片几千字的文章,让你对它进行分词可能你通过编编程序便可以实现,但是有哪些信誉好的足球投注网站引擎要解决的问题是怎样去处理互联网中海量的,且没有规则的信息,要解决的问题就不仅仅是简简单单的分词问题了,可以说下面要介绍的一些关键技术正是分词技术的一个基础,是为分词建立一个良好的有哪些信誉好的足球投注网站环境和数据结构。 1,网络机器人(比如Google一般是28天)是一个功能很强的W扫描程序。它可以在扫描W页面的同时检索的超链接并加入扫描队列等待以后扫描。,一个Spider程序理论上可以扫描互联网上的所有页面。有哪些信誉好的足球投注网站巨头Google公司,就利用网络机器人程序来遍历Web站点,。 Spider程序的非递归处理过程 以上的图表示了队列的变化过程,在这个过程中,当一个URL被加入到等待队列中时Spider程序就会开始运行。只要等待队列中有一个网页或Spider程序正在处理一个网页,程序就会继续他的工作。当等待队列为空并且当前没有任何网页时,Spider程序就会停止它的工作。 2,索引数据库大型有哪些信誉好的足球投注网站引擎的数据库储存了互联网几十亿的网页索引,数据量达到G甚至几万G。为了充分的为后面考虑在后面查询中能够跟快捷,更准确。有哪些信誉好的足球投注网站引擎在分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。当用户输入关键词有哪些信誉好的足球投注网站后,由有哪些信誉好的足球投注网站系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将有哪些信誉好的足球投注网站结果的链接地址和页面内容摘要等内容组织起来返回给用户网页评级PageRank,HillTop)技术。PageRank的算法: 其中,PR(A)是页面A的级别,PR(Ti)是页面Ti的级别,页面Ti链向页面

您可能关注的文档

文档评论(0)

gujf + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档