有哪些信誉好的足球投注网站引擎相关度算法分析.docVIP

下载本文档

20
0
约2.88千字
约 6页
2017-08-16 发布于江西
举报
版权申诉

有哪些信誉好的足球投注网站引擎相关度算法分析.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

有哪些信誉好的足球投注网站引擎相关度算法分析.doc

有哪些信誉好的足球投注网站引擎相关度算法分析1。网页的PageRank值决定了随机访问到这个页面的概率.用户点击页面内的链接概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)ΠC(Ti)的原因.因此,一个页面通过随机冲浪到达的概率就是链入它的页面上的链接被点击概率的和,且阻尼系数的减低了这个概率.阻尼系数的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面. 由此可见,PageRank并不是将整个网站排等级,而是以单个页面计算的.页面A的PageRank值取决于那些连接到A页面的PageRank的递归值.PR(Ti)值并不是均等影响页面PR(A)的.在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响.这就是说,T的出站链接越多,A受T的这个连接的影响就越少.PR(A)是所有PR(Ti)之和.所以,对于A来说,每多增加一个入站链接都会增加PR(A).所有PR(Ti)之和乘以一个阻尼系数的,它的值在0到1之间.因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献.另外,PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性.斯坦福大学计算机科学系Arvin的Arasu等科学家经过试验表明,PageRank算法计算效率还可以得到很大的提高 2.2 HITS算法。 HITS(Hyperlink-In的uce的TopicSearch)算法是利用HubΠAuthority的有哪些信誉好的足球投注网站方法,具体算法如下:将查询q提交给传统的基于关键字匹配的有哪些信誉好的足球投注网站引擎.有哪些信誉好的足球投注网站引擎返回很多网页,从中取前n个网页作为根集(RootSet),用S表示.S满足如下3个条件:S中网页数量相对较小;S中网页大多数是与查询q相关的网页;S中网页包含较多的权威网页.通过向S中加入被S引用的网页和引用S的网页,将S扩展成一个更大的集合T.以T中的Hub网页为顶点集V1,以权威网页为顶点集V2.V1中的网页到V2中的网页的超链接为边集E,形成一个二分有向图.对V1中的任一个顶点v,用h(v)表示网页v的Hub值,且h(v)收敛;对V2中的顶点u,用a(u)表示网页的Authority值.开始时h(v)=a(u)=1,对u执行I操作,修改它的a(u),对v执行O操作,修改它的h(v),然后规范化a(u)Πh(v),如此不断的重复计算下面的I操作和O操作,直到a(u).其中I操作:a(u)=∑h(v);O操作:h(v)=∑a(u). 每次迭代对a(u)、h(v)进行规范化处理:a(u)=a(u)Π∑[a(q)]2;h(v)=h(v)Π∑[h(q)]2.HITS算法可以获得比较好的查全率,输出一组具有较大Hub值的网页和具有较大权威值的网页.但在实际应用中,HITS算法有以下几个问题:由S生成T的时间开销是很昂贵的,由T生成有向图也很耗时,需要分别计算网页的AΠH值,计算量大;网页中广告等无关链接影响A、H值的计算,降低HITS算法的精度;HITS算法只计算主特征向量,处理不好主题漂移问题;进行窄主题查询时,可能产生主题泛化问题. 相关分析算法大体可以分为4类:基于随机漫游模型的算法,比如PageRank,Repution算法;基于Hub和Authority相互加强模型的算法,如HITS及其变种;基于概率模型的算法,如SALSA,PHITS;基于贝叶斯模型的算法,如贝叶斯算法.所有的算法在实际应用中都结合传统的内容分析技术进行优化[3].AllanBoro的in也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差。 3、排序算法的优化。要提高现有算法的精度,首先,必须增强根集的质量,算法再好,也无法在低质量网页集找出很多高质量的网页;其次,降低噪音链接;最后,选择合适的查询分类.为此,笔者提出了一个考虑综合因素的相关排序实现方案. 3.1重组网页中特征项的权重。考虑到HTML的标签的功能不同,将其分为功能类和附加类,对其分配不同的权重表,设标签权重WBT(T,P)=∑WBT(i)×LG(SMAXΠS(P))×LG(NΠT(t)),其中:SMAX表示最大网页可索引文本大小;S(P)代表网页P的可索引文本大小;N代表被索引网页的数量;T(t)代表包含特征项的网页数量.可以看出该方案综合考虑了标签权重、网页大小和特征项的频度. 3.2利用改进的PageRank算法分配链接结构。 PageRank因子的优化可从下面3个方面着手:设置导入链接PageRank得分;最大回馈和最小损耗的PageRank值的网页做导出链接;修正内部导航结构和内部页面的链接PageRank值,实现PageRank在网站内部的良好分布.设链接值ΠkiR(u)=C∑R(v)ΠN(v){v∈B(u)}.其中:u表示一个网页;R