BM25算法浅析.docVIP

下载本文档

33
0
约6.31千字
约 9页
2015-09-11 发布于重庆
举报
版权申诉

BM25算法浅析.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

BM25算法浅析,bm算法,bm算法详解,bm3d算法,bm算法实现,bm算法原理,bm3d算法的优缺点,bm匹配算法,opencvbm匹配算法,bm算法代码

BM25算法浅析 2011-02-10 13:38:00 by deepblue BM25算法，通常用来作有哪些信誉好的足球投注网站相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个有哪些信誉好的足球投注网站结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。 BM25算法的一般性公式如下：其中，Q表示Query，qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素分析，每个词看成语素qi。）；d表示一个有哪些信誉好的足球投注网站结果文档；Wi表示语素qi的权重；R(qi，d)表示语素qi与文档d的相关性得分。下面我们来看如何定义Wi。判断一个词与一个文档的相关性的权重，方法有多种，较常用的是IDF。这里以IDF为例，公式如下：其中，N为索引中的全部文档数，n(qi)为包含了qi的文档数。根据IDF的定义可以看出，对于给定的文档集合，包含了qi的文档数越多，qi的权重则越低。也就是说，当很多文档都包含了qi时，qi的区分度就不高，因此使用qi来判断相关性时的重要度就较低。我们再来看语素qi与文档d的相关性得分R（qi，d）。首先来看BM25中相关性得分的一般形式：其中，k1，k2，b为调节因子，通常根据经验设置，一般k1=2，b=0.75；fi为qi在d中的出现频率，qfi为qi在Query中的出现频率。dl为文档d的长度，avgdl为所有文档的平均长度。由于绝大部分情况下，qi在Query中只会出现一次，即qfi=1，因此公式可以简化为：从K的定义中可以看到，参数b的作用是调整文档长度对相关性影响的大小。b越大，文档长度的对相关性得分的影响越大，反之越小。而文档的相对长度越长，K值将越大，则相关性得分会越小。这可以理解为，当文档较长时，包含qi的机会越大，因此，同等fi的情况下，长文档与qi的相关性应该比短文档与qi的相关性弱。综上，BM25算法的相关性得分公式可总结为：从BM25的公式可以看到，通过使用不同的语素分析方法、语素权重判定方法，以及语素与文档的相关性判定方法，我们可以衍生出不同的有哪些信誉好的足球投注网站相关性得分计算方法，这就为我们设计算法提供了较大的灵活性。 1.?????? BM25 BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下： ? ∑ ? 其中，k1,k2,K均为经验设置的参数，fi是词项在文档中的频率，qfi是词项在查询中的频率。 K1通常为1.2，通常为0-1000 K的形式较为复杂 ? K= ? 上式中，dl表示文档的长度，avdl表示文档的平均长度，b通常取0.75 ? 2.?????? BM25具体实现由于在典型的情况下，没有相关信息，即r和R都是0，而通常的查询中，不会有某个词项出现的次数大于1。因此打分的公式score变为 ? ∑ ? 3.? 使用Lucene实现BM25 Lucene本身的打分函数集中体现在tf·idf 为了简化实现过程，直接将代码中tf和idf函数的返回值修改为BM25打分公式的两部分。文档的平均长度在索引建立的时候取得，同时在建立索引的过程中，将每个文档的docID与其长度，保存在一个hashMap中。具体的函数实现如下（DefaulSimilarity类）：其中TermScore.temp为公式中K+fi的值 Temp的计算在TermScore类中进行计算： public float score() { assert doc != -1; int f = freqs[pointer]; temp=(float)(1.2*(0.25+0.75*FileSearch.docToken.get(doc))+f); System.out.println(weightValue: +weightValue); float raw = getSimilarity().tf(f)*weightValue; // compute tf(f)*weight //f SCORE_CACHE_SIZE // check cache //? scoreCache[f]*temp // cache hit //: getSimilarity().tf(f)*weightValue*temp; // cache miss System.out.println(score func doc id :+