- 1、本文档共76页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于概率模型名人网页相关度评价
硕士研究生学位论文
题目:基于概率模型的名人网页相关度评价
姓 名:
学 号:
院 系: 信息科学技术学院
专 业: 计算机系统结构
研究方向: 网络与分布式系统
导 师: 教授
二零零五年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘 要
本文的工作是在北京大学网络实验室、北京大学计算语言所与北京大学— IBM创新研究院联合研发的天网知名度系统(Fame)中开展的。针对原有系统名人网页相关度评价中存在的问题,本文中提出了一种基于概率模型的名人网页相关度评价模型。
首先,针对Fame系统中名人网页相关度评价的特点,构建基本相关度评价模型。构建基础是Okapi BM25检索模型,在其基础上引入HTML标记权重系数,改进Okapi BM25公式,弥补其没有考虑HTML标记的不足。利用Fame系统数据集进行评测,实验结果表明HTML标记系数的引入提高了系统相关度评价质量,同时显示该基本模型优于原有系统中的相关度评价模型,提高了系统性能。
其次,由于不同领域名人的属性信息对其相关度评价有不同的贡献,本文中构建了区分领域的多层次实体模型,来更好地描述用户的信息需求。同时在基本模型基础上引入属性信息权重系数,使基本模型从不支持结构化查询需求改进为支持多层次实体模型。各领域的权重系数通过训练集训练的方式获得,避免了人工赋予方法的不确定因素。选取对系统相关度性能提高最大的一组权重系数作为模型中的领域参数,该套参数通过测试集的测试,证明有较好的适用性。
再次,采用了伪反馈和用户反馈两种相关反馈方法,为实体属性信息进行权重的自动调整,以达到系统相关度评价的进一步优化。通过实验得出的结论是:1)初始检索的质量很大程度地影响伪反馈的效果。应该先对初始检索模型进行优化,再使用伪反馈,这个顺序很重要;同时初始检索的质量需要达到一定高度后,使用伪反馈才能提高系统检索质量,目前系统的初始检索质量仍不适宜直接进行伪反馈。2)用户反馈在总体上自动优化了属性信息权重,提高了系统相关度评价质量。3)用户反馈的效果受名人实体属性信息词数的影响,属性信息越丰富,采用用户反馈后评价质量提高的概率越大。
关键词:信息检索,相关度评价,概率模型,相关反馈
Probabilistic Model-Based Relevance Evaluation of Famous People’s Web Pages
Abstract
Tianwang Fame is an individualized information retrieval system. According to the main problems of the original relevance evaluation models, a probabilistic model-based relevance evaluation model is proposed in this dissertation to improve the relevance ranking of famous people’s web pages.
First, a basic evaluation model is built on the basis of Okapi BM25. The author introduced an HTML weight to Okapi BM25. The test on Fame data collection shows that this basic model brings improvements to the system.
Second, a multi-level area-differed entity model is built to fully describe the entities. The author brings an area-differed attribute weight to the basic model. The selection of the weights’ values is based on the training process on Fame’s training set. The variables are te
文档评论(0)