网站大量收购独家精品文档,联系QQ:2885784924

一种面向多文本集部分比较性混合模型.doc

一种面向多文本集部分比较性混合模型.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种面向多文本集部分比较性混合模型

一种面向多文本集部分比较性混合模型   摘要:针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能. 关键词:概率分布;比较性文本挖掘;部分可比性;PCCMix模型; 混合模型 中图分类号:TP39 文献标识码:A 时空演化、跨文化等比较性文本挖掘旨在发现可比文本集之间语义结构之间的差异[1-6],如话题在不同时间、地域、文化的人群中所表现出来的差异,所谓可比文本集是指讨论类似话题的多个文本集.传统文本挖掘模型主要通过向量空间模型、潜在语义索引(Latent Semantic Index, LSI) [7]、概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)[8]等模型分析文本集的语义结构.随着概率图模型的发展,以LDA (Latent Dirichlet Allocation)为代表的话题模型得到了越来越多的重视[9].研究人员在LDA之后又提出了PAM[10],CTM[11],RTM[12]等话题模型.但大部分话题模型都只面向单一文本集,不适用于跨文本集的比较性文本挖掘,如:时空演化文本挖掘[11]、跨文化文本挖掘[2]等. 在互联网飞速发展的今天,比较性文本挖掘具有十分重要的现实意义.科研人员可通过它分析某个领域的研究热点在几年之间的变化趋势;决策者则需要了解在有关措施实施之前与之后民众态度的变化;企业通过分析相关用户的博客可以了解不同地区的人对于同一个产品评价的不同,不同年龄阶段的人消费观念的差异等.当前比较性文本挖掘的模型主要有:CCMix (CrossCollection Mixture )模型[1,4-5]和CCLDA (CrossCollection LDA)模型[2-3].CCMix模型实际上是多个PLSA的混合,它采用期望最大法求解.该模型简单易于实现,但也继承了PLSA的缺点,参数数量随着文本增加呈线性增长;CCLDA模型基于LDA模型,假设一个话题与2个词的分布关联,其中一个是多个文本集共享的,即话题的公共部分,另外一个与具体的文本集相关.该模型在对词进行抽样时加了一个掷硬币的过程,该过程决定要抽样的词从该话题的哪一个分布生成. 两个模型在一定程度上解决了跨文本集的比较性文本挖掘问题,但是它们都只适用于文本集之间相似度较高即各文本集都讨论相同话题的情况.而不同的文本集可能具有一些特有的话题,这些话题可能在其他文本集中并没有出现,如由于观点、立场或者新闻来源不同,网站会有一些特有的报道或评论;学术上突然出现的新的研究方向等.上述两个模型并不能解决此类问题,有时出现两个不相干的话题进行比较的情况[2].针对此,本文提出一种兼顾二者的部分比较性的跨文本集混合模型PCCMix,所谓部分比较性是指文本集中只有部分话题是可做比较性分析的.PCCMix模型把所有文本集中的话题分为2种,一种是公共话题,即所有文本集都讨论的话题;另外一种是文本集特有话题,模型只在公共话题上进行比较性分析.根据词的涌现规律[13],本文借鉴文档频率逆文本频率(term frequencyinverse document frequency,tfidf)的思想,通过文本集频率和逆文本集频率来建立词属于特有话题的概率分布,把话题划分为两个部分,基于此建立一个混合模型来分析文本集之间的差异. 1PCCMix模型及参数估计算法 1.1PCCMix模型 PCCMix模型把话题分为3类,第1类为背景话题,代表停用词等噪音,如果事先过滤停用词,一般可不考虑背景模型[2-3].第2类为公共话题,即所有文本集都涉及的话题.第3类为文本集特有话题.模型生成过程如图1所示.相对于LDA和CCLDA模型,本文与CCMix模型一样,选择较为简单易于实现的PLSA模型作为本文模型的基础.模型中一个话题是一个所有词的二项式分布,一个文本由多个话题混合而成. 由表2可知,路透社在2004年的有关报道是在事件发生不久,根据当时的现状做出的报道,而2005年则回顾性地结合实时新闻进行报道.在话题1中,2004年的报道偏向国际社会对于海啸的反映,2005年则侧重于海啸对周边国家的影响、规模和国际社会的援助.话题2主要是讨论人员的伤亡和各国政府的反映,从2004年可以看出,当时媒体的报道重点在于伤亡人员的搜救工作和各国政府对海啸采取的行动,而

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档