基干LDA与距离度量学习文本分类研究.doc

下载文档 降价啦

1
0
约8.01千字
约 13页
2017-06-02 发布于福建
举报
版权申诉
保障服务

基干LDA与距离度量学习文本分类研究.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基干LDA与距离度量学习文本分类研究

基于LDA与距离度量学习的文本分类研究　　摘要提出了一种基于隐含狄利克雷分布（LDA）与距离度量学习（DML）的文本分类方法，该方法利用LDA为文本建立主题模型，借助Gibbs抽样算法计算模型参数，挖掘隐藏在文本内主题与词的关系，得到文本的主题概率分布.以此主题分布作为文本的特征，利用DML方法为不同类别的文本学习马氏距离矩阵，从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上，利用常用的KNN及 SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明，该方法提高了文本分类的准确率，并且在不同的隐含主题数目参数下能体现较好的稳定性. 关键词文本分类；距离度量学习；隐含狄利克雷分布；主题模型中图分类号 TP391.41 文献标识码 A 文章编号 1000-2537（2016）05-0070-07 Abstract A text classification method based on Latent Dirichlet Allocation （LDA） and distance metric learning （DML） were presented. The method models text data with LDA， which generate the topic distribution of different text through detecting the hidden relationship between different topics and words inside the text data， and parameters of the model are estimated with Gibbs sampling algorithm. The generated topic distribution is used as the features of the text data， and the DML method is used to learning the Mahalanobis distance metric for different classes so that the similarity between text data are well presented. Classifiers like KNN or SVM are used to classify text data based on the learning distances. Experimental results showed that this method can improve the text classification accuracy and is robust in setting different topic number. Key words text classification； distance metric learning； latent Dirichlet allocation； topic model 随着互联网的高速发展，文本数据作为最主要的信息载体之一以指数级的速度不断增长.因此，如何有效地从海量文本数据中挖掘出有用的信息成为当前的迫切需求.文本自动分类技术作为自然语言处理的关键技术近年来广泛受到关注并得到了快速的发展，已成为当前研究的热点.文本自动分类的过程中主要的技术包括了文本的预处理、特征的提取、文本的表示、分类器的设计，以及分类效果的评估等. 在文本分类研究中，向量空间模型（Vector Space Model，VSM）[1]是数据挖掘领域经典的分析模型之一.VSM利用统计词在文本和文本集中出现的频率来表征词对文本的重要性，最终将文本表示成一个向量，并通过余弦等不同的距离度量方式来计算文本之间的相似度.然而，由于自然语言的复杂性，类似文本语义等复杂问题并不能在VSM中得到建模，而且利用VSM表示文本得到的数据空间是极度高维且稀疏的.近年来，以隐含狄利克雷分布（Latent Dirichlet Allocation， LDA）[2]为代表的主题模型成为研究的热点.基于LDA主题模型进行建模能很好地考虑文本语义的相似性问题，因而被广泛应用到各个文本分类算法中，如Bao[3]、姚全珠[4]、李文波[5]等都使用LDA模型来对文本进行分类. 样本间的距离度量是模式识别领域研究的核心问题之一，它对分类、聚类等模式分析任务非常重要，如K近邻、支持向量机等分类算法的准确率就非常依赖于距离的定义.在文本分类中，为文本的特征向量选择适合的距离度量方法将直接影响到最终分类的效果.为此，许多学者分别提出