- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于页面时间相关度算法的信息检索研究.doc
基于页面时间相关度算法的信息检索研究
摘 要: 检索的目标是全面而准确的信息,用户关心的是在海量数据中快速地查到合适的信息。为了使用户更快地得到满意的结果,本文提出了在传统相关度算法的基础上增加页面时间因素思想的页面时间相关度算法,使得检索结果在查准率方面有了较大的提高。
关键词: 相关性;页面时间相关度算法
1 引言
当前,我们在检索的时候往往不能更快地找到合适的数据。根据iProspect 的调查报告, 90%的用户只点击有哪些信誉好的足球投注网站结果页的前3页里的结果,多数网民表达了对有哪些信誉好的足球投注网站引擎结果中冗余信息多的不满。这说明:用户对有哪些信誉好的足球投注网站引擎的要求越来越高,他们希望花在寻找结果上的时间越来越少。因此,排序查找到的结果比有哪些信誉好的足球投注网站本身更为重要,研究有哪些信誉好的足球投注网站引擎的排序算法的改进,逐渐成为热点问题,越来越多的人意识到排序质量不令人满意的原因:不是网页提供给的信息太少,而是可用的信息太少,或所用信息不恰当[1]。
如何解决非应答或无应答网页的问题,就是排序算法所应关注的重要问题。排序所查找到结果的相关度算法就是希望能够帮助用户更快捷准确的找到更符合目标的网页,以达到更好的查准率。本文提出了通过在传统网页相关度算法的基础上增加页面时间因素的思想,解决了无应答和非应答页面的问题,经过实验提高了查准率。
2 传统排序算法的局限性
2.1 传统网页的相关性排序原则
传统的信息检索大多是基于全文检索的,其相关性都是基于词频统计的。即用户输入检索词句时,有哪些信誉好的足球投注网站引擎就会去找那些检索词所在的网页[2]。这样的排序算法的有很大的局限性表现为:首先,检索词的匹配不一定就是查找到准确文档的保证。其次,每个用户人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远[2]。
2.2 基于提问式的非应答或无应答式网页
所谓基于提问式的非应答或无应答网页,就是针对某些问题用户在某些论坛或者网站上输入问题,但是没有合适的答案或没有回答的情况。而我们在检索时,也常常发生这样的情状况:因为输入的查询词句和网页中提问的问题的匹配,这些提问应答式网页的排序就比较靠前,但是,很多这样的网页都是非应答或无应答网页。
2.3 用户反馈的问题
在资源选择模块中加入日志信息、反馈机制, 充分利用用户反馈信息能够提高信息检索性[3]。本文提出了一种基于页面时间的相关度排序算法,解决了基于提问式的非应答或无应答网页的问题,弥补了用户反馈的问题。通过分析和实验可以看出此种方法不仅具有实用性和可行性,也使得排序结果具有更加优良的排序质量。同时,这种算法是在按照传统排序算法上增加页面时间的思想而提出的,可以方便地被移植。
3 页面时间算法
3.1 算法的思想
页面时间算法的主要思想就是:有用的网页会比无用的网页的生存期长。
先对待计算数据给出如下定义:
定义1 对于一个用户检索时,确定有哪些信誉好的足球投注网站引擎抓取到的所有网页集合S,对于S中的任何一个网页用Ri表示。
定义2 用户需要检索的目标网页集合G,G中网页的个数用小写字母N表示,如果没有用户特别指定,默认N值为10,这这是因为一般一个检索页面检索到的网页为10个,而根据调查显示,越来越多的用户只点击有哪些信誉好的足球投注网站结果页的第1页里的结果。G是S的子集。
定义3 用户打开网页的个数,用小写字母n表示,nN。
定义4 当用户打开一个页面时,记录两个时间:打开页面的时间,用tstart表示;关闭页面的时间,用tend表示。
定义5 网页从打开到关闭所花费的时间称为页面的生存期,用带下标的小写字母t表示,ti表示第i个页面的生存期。
算法的主要实现步骤为:
步骤1 用户输入关键词句检索时,确定检索到的所有网页集合S和用户想要检索的网页集合G。即确定G的个数N,如果用户没有特殊说明,N的值默认为10。
步骤2 对于打开的n个网页,nN for(0in+1)
对G中的每一个网页Ri通过每个页面的打开时间tstart和关闭时间tend按照公式(1)计算页面的生存期。
步骤3 对于每一个网页Ri,i[1,n],查看页面的生存期ti,对n个检索到的结果按照ti由大到小进行排序。在同样的查询重要度下,ti值大的重要度要比ti值小的重要度大。这样,有用的网页就会更快的被用户查询到,无应答或者非应答网页的问题也就解决了。
3.2 对算法的理论分析
一是可行性和可移植性。我们打开一个网页的时候经常会有登录时间这样的信息“您上次登陆的时间是:”,就是说我们可以获得时间打开和关闭的信息,也就是说这个想法是可行的。而且这也就是说我们可以从网页上直接获取时间信息加以利用,而不用为网页增加更多的元素,这样就更有利于广泛地使用和被移植。
您可能关注的文档
最近下载
- 2013款北京现代胜达_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 消防救援队伍辖区熟悉与实战演练规定 .pdf VIP
- 小学语文统编教材语文要素纵横关联逻辑梳理表.pdf VIP
- 7.1 影响深远的人文精神(精品课件)2024-2025学年七年级道德与法治全一册同步精品课堂(统编版五四学制2024).pptx VIP
- (word完整版)高考3500词汇表(带音标) .pdf
- 【某段新建二级公路的初步设计14000字】.docx
- 重症肺炎纤支镜护理查房.pptx
- 来料验收、退货报告模板.docx
- 统编版小学三年级下册道德与法治 第一单元 我和我的同伴 《我很诚实》第一课时说课.ppt
- 中医文化宣传PPT模板.pptx
文档评论(0)