- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Markov网络的检索模型 曹瑛 王明文 陶红亮 江西师范大学 提纲 研究背景 基本思路 Markov网络检索模型 实验结果 进一步工作 研究背景 随着计算机的普及和互联网的迅猛发展, 在检索所需的信息时,人们很容易“淹没”在大量不相关的信息。 为了帮助人们在海量信息源中迅速找到真正需要的信息,我们迫切需要研究能取得更好的检索效果的信息检索模型。 信息检索是在给定的文档集中,对用户的查询和文档进行相似度匹配,找出用户感兴趣的文档信息。 研究背景 经典检索模型包括布尔、向量、概率模型应用已经非常成功。目前研究热点主要是对这些模型的改进,将检索过程看作是推理过程也是其中之一,如使用比较广泛的贝叶斯网络,推理网络,信任网络。 图形模型在信息检索领域已经应用相当成功。 基本思路 贝叶斯网络模型利用网络的学习机制,扩展新的词相关信息到查询中去,取得很好检索效果,但贝叶斯网络构造过程复杂,且它的有向边不能很好解释词间的相关性。 针对以上问题提出:基于Markov网络的信息检索模型 基于Markov网络的信息检索模型 Markov网络的构造 一个Markov网络可表示为一个二元组G(E,V) V为结点的集合,E为一组无向边的集合 V条件独立非邻节点, 定义 利用词的相关性来构造索引项子空间 选择文档作为窗口单元 ,计算词与词之间的互信息 其中 , c(x,y)指词x与词y 在同一个窗口单元中同时出现的频率, C( x) 是指在训练语料中,词x 出现的频率,N训练文档集中窗口单元的个数 构造学习算法获得索引项空间Markov网络 (1)初始化一个图形G(V,E), ,E为索引项节点之间的边的集合。 (2) 在这个模型中,用规范化的互信息计算词的相关性,我们将任一词与其它词的相关性由大到小进行排序,每次取相关性大于某个阈值的词构造网络 (3)将节点(ti,tj)相连,如果中不存在相应的边,将其加入E中,边的权重为索引项之间的相关性 Markov网络检索模型 给定查询q,文档集D, MT为词子空间的Markov网络 当索引项和文档的网络固定时, p (T|MT)和p(MT)对任一dj都相同 相关计算 查询词ti与文档d的相关性概率 试验设计及初步结果 文档集:选取5个常用的标准测试文档集adi, med, cran ,cisi以及cacm。 预处理 评价指标 3-avg: 一个查询在3个召回率点(0.2,0.5,0.8)上精确率的平均值 11-avg: 一个查询在11个召回率点(0,0.1,……,1.0)上精确率的平均值 实验公式 索引项权重计算 检索公式 比较的基准模型 选择五种不同的检索算法:hit,tf,idf,tfidf,BM25 参数的确定 参数 的确定 ( 为构造索引项网络阈值 ) 参数λ0的取值 (λ0为原query的权重) 参数 的变化对各个数据集实验结果11avg的影响情况 参数 参数 λ0 的变化对各个数据集实验结果11avg的影响情况 参数 λ0 下一步工作 计算文档之间的相似性,构造文档网络 改进索引项网络的构造,根据文档网络来调整索引项网络,相互作用使得网络结构稳定。 完善检索模型并应用在更大文档集(像TREC)上,测试其通用性能 * * * * Markov网络是一个无向图,它可进行不确定性的知识推理,无向边可解释词间相关性,通过Markov网络学习机制获得词的相关信息。 在Markov网络中,每个节点条件独立于与其邻居节点给定的非邻居节点的任意结点子集,节点只和其直接相邻节点存在依赖性。即满足 。 模型分三层:查询子空间,索引项子空间,文档空间 从网络结构中可以推出: 查询词的相关性推理
文档评论(0)