- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HMM的主题垂直有哪些信誉好的足球投注网站引擎技术研究
计 算机 应 用 《自动化技术与应用》2014年第 33卷第 10期
ComPuterADDlications
基于HHH的主题垂直有哪些信誉好的足球投注网站引擎技术研究★
张 弛
(陕西国防工业职业技术学院,陕西 西安 7l0300)
摘 要 :计算机网络技术的飞速发展,对于有哪些信誉好的足球投注网站引擎技术也提出了更高的要求。文章主要以垂直有哪些信誉好的足球投注网站引擎的主题网页抓取策略为研究
内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应
用方法不仅分析了网页内容,还考虑网页上下文链接距离结构 ,在一定程度上提高了主题页面抓取的精度。
关键字:HMM;垂直有哪些信誉好的足球投注网站引擎;主题页面;
中图分类号:TP391.3 文献标识码:A 文章编号:l0O37241(2Ol4)100037—03
TheTechnologiesofVerticalSearchEnginesBasedonHMM
ZHANG Chi
(Shaar ]asdtut~ofTechnology,xi’all710300China)
Abstract:W iththedevelopmentofcomputernetwo~’ktechnology,thesearchenginetechnologyputsforwardhigherrequirements.
Thispaperresearchesonhow toimprovetheaccuracyandefficiencyofWebpagecrawlingstrategiesofverticalsearch
engine introduceshiddenM arkov model,and discussesthemodelspecificapplication strategy and process.The
methodofapplicationofthemodelnotonlyanalyzesWebpagecontent,butalsoconsidersthecontextWebpagelink
distance,toacertainextent,improvestheaccuracyoftopicwebpages.
Keywords:HMM ;verticalsearchengines;themeofthepage
· 一 , f 一 -
J jij 如图1所示,网页抓取技术是有哪些信誉好的足球投注网站引擎的重要组成部
1.1 网络爬旦j 系~士c-lq士*aJ 分,有哪些信誉好的足球投注网站引擎能够从网页采集资源信息主要靠爬虫的工作。
网络爬行是指有哪些信誉好的足球投注网站引擎从网络上查找并搜集 网页 1.2 基于Hr.viI~、 。h。‘u~,J,enM刮0vMode!阮马,
的过程,其 目标是尽可能快速 、有效 ,多量的搜集与用 习炙模型j的主题页面抓壤策臣各提出誊景
户需求相关的有用网页及网页间的链接结构。网络爬 目前通用的抓取策略各有其不足 ,基于超链图评价
虫,是在HTTP协议访问标准下 ,跟随网络链接遍历网 的方法存在 “主题漂移”的问题li,通常认为,在爬行主
络空间信息的程序…。一个典型网络爬虫体系结构主要 题网页页面抓取过程中,与主题内容相关的网页就包含
由五个模块组成,待爬行 URLs队列 (URLsFrontier), 着指向相关主题网页的链接 。然而这一认知忽略的事
DNS解析器,爬行模块,解析模块,是否爬行判断模块 引【。 实是,互联网中同样存在这样一种情况 :爬虫接触的一
级页面可能看似不包含给定主题 ,但其二级页面中却有
文档评论(0)