网站大量收购独家精品文档,联系QQ:2885784924

基于LDA的信息检索模型.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LDA的信息检索模型.doc

基于LDA模型的Ad-hoc检索方法模型的有哪些信誉好的足球投注网站算法是信息检索的重要研究方向之一。话题模型假设每个文档只属于一个话题,而实际,一个文档与多个话题相关。本文LDA模型将文档表示为多个话题的组合,并语言模型框架,提出了一种基于LDA混合信息的Ad-hoc检索。方法LDA模型与文档模型模型相比保持较低的计算复杂度外,具有很高的检索性能因此更文档集的信息检索。检索Ad-hoc information retrieval method based on LDA BU Zhi-qiong11, ZHENG bo-jin2 (1.School of Computer,Guangdong Polytechnic Normal University, Guangdong Guangzhou,510665, China;2.School of Computer,South Central University for Nationality, Hubei Wuhan 430074, China) Abstract: Topic model based searching method is one of the most critical research issues in information retrieval. Traditional topic model assumes that each document is related only one topic, but in practice, a document is usually related with multi topics. This paper represented a document with combination of multi topics with the LDA model, and proposed a LDA based mixture model for Ad-hoc information retrieval method in language model framework. The proposed method combined the LDA and the document model. Compared with cluster-based model, it has a higher performance, while keeping low computation complexity, and thus can be used in information retrieval of large scale document collections. Key words: information retrieval; language model; document model; topic model 0 引言 在信息检索中,文本文档内容的表示是最重要的组成部分之一。在通常情况下,假设文档中的单词之间是相互独立的,文档可以用词袋(Bag of words)模型表示。然而实际上,单词之间往往存在关联性,某些单词往往会同时出现。于是,研究人员将这些具有关联性的单词结合在一起组成话题。单词聚类和文档聚类技术在加强文档的表示上使用了多年,例如单词聚类[2],潜在语义索引(Latent Semantic Indexing,LSI)[3],概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI) [4]。概率潜在语义索引利用潜在的变量将文档表示成多个话题的组合。虽然PLSI模型在向量空间模型框架上的性能优于LSI,但是实验采用的数据集很小,难以代表当前信息检索的环境。 采用话题模型来表示文档是机器学习研究领域的重要研究内容之一。LDA(Latent Dirichlet Allocation)5]是机器学习领域最重要的概率文本模型之一,在某些文本相关的任务文档分类)中非常好的效果LDA模型具有完全的产生式语义,它克服了PLSI等模型缺陷。模型一种产生式模型,它是统计原则进行检索最流行的方法。模型可以在模型框架中检验LDA的文档表示的有效性。Nguyen 7]经过研究,模型中,文档聚类信息检索的有效性。基于的检索多个数据集中都有效的,其检索效果基于文档的信息检索效果更好。语言模型框架中,基于聚类的话题模型可以用来平滑文档模型的概率。混合模型8]是一种简单的话题模型,模型每个文档仅仅与一个话题相关,并且从一个话题产生整个文档。这种对于大规模的文档集合来说过于简单,不能有效的描述之间的话题关联。与之,LDA模型将每个文档表示成多个话题的合。LDA模型文档的产生式模型具有上述优点,将原

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档