基于点间互信息主题优化方法.doc

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国内图书分类号:TP391.3 国际图书分类号:004.8  学校代码:10213 密级:公开 工学硕士学位论文 基于点间互信息的主题优化方法 硕 士 研 究 生:赵斌 导  师:丁宇新 副教授 申 请 学 位:工学硕士 学  科:计算机科学与技术 所 在 单 位:深圳研究生院 答 辩 日 期: 2012 年 12 月 授予学位单位:哈尔滨工业大学 - 21 - Classified Index: TP391.3 U.D.C: 004.8 Dissertation for the Master Degree of Science in Engineering TOPIC OPTIMIZATION METHOD BASED ON POINTWISE MUTUAL INFORMATION Candidate: Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Defence:  Zhao Bin Associate Prof. Ding Yuxin Master of Science in Engineering Computer Science and Technology Shenzhen Graduate School December, 2012 Degree-Conferring-Institution: Harbin Institute of Technology - 22 - 哈尔滨工业大学工学硕士学位论文 摘  要 当今世界,随着信息技术的不断进步,各类信息资源都以较快的速度增长 并呈现出海量的特征,其中数据主要还是以文本的形式出现。信息量已经满足 人们的需求,但是如何高效地管理并且使用海量数据成为目前迫切需要解决的 问题,这促进了对文本分类相关领域的研究。文本分类技术研究的主要核心内 容包括两个部分:分类模型和文本表示。目前文本表示方法可以分为两种类型, 一种类型是引入语言学特征;另一种类型利用统计学方法挖掘出文本的主题信 息。前者由于需要较为复杂的语言学特征处理从而降低了整个系统的效率,其 实用性受到影响;后者的典型代表就是 PLSA 语义模型以及 LDA 语义模型。语 义模型是一种基于统计学理论的概率模型,模型构建出“文档-主题-词汇”三层 结构来得到数据集中的潜在语义(主题)。 本文给出了基于点间互信息的 LDA(Point-wise Mutual Information Latent Dirichlet Allocation,PMI-LDA)主题模型和基于最近距离的 LS(Laplace Score) 主题选择算法。LDA 模型不是判别模型,而是一个生成模型,在生成文本的过 程中通过 EM 算法得到潜在的主题层。但是,在利用 LDA 主题模型生成文本的 过程中,模型会同等对待文本中的每一个单词,这样会造成主题向高频词倾斜, 同时还会造成主题重叠现象。本文的主要贡献有三点:首先,提出 PMI-LDA 主题模型,模型能够克服主题向高频词倾斜及主题重叠的问题,使得我们提取 出的文本主题更能表征一篇文本。实验证明,本课题提出的算法是可行的。然 后,本文还从两个角度来评价提取出主题的优劣,一是从主题一致性、可读性 上来评价,从主题本身出发,根据主题所包含的单词的可读性和一致性,对主 题的优劣进行评价;二是从模型中主题的区别能力和相似性上来评价,从整个 模型出发,根据主题的相似性和区别能力来评价提取出的主题的优劣。从实验 中可以清晰的看到,PMI-LDA 主题模型提取出的主题,不管是在可读性、一致 性上,还是在区别能力、相似性上都优于 LDA 主题模型提取的主题。最后,当 使用主题作为文本的特征时,根据主题存在优劣的事实,不同的主题不应该同 一而视,课题提出了基于最近距离的 LS 算法来计算主题的权值,并应用到文 本分类中。 关键词:主题模型;Latent Dirichlet Allocation;基于点间互信息的 LDA 主题模 型;主题优劣;主题加权 I 哈尔滨工业大学工学硕士学位论文 Abstract In today’s world, with the continuous advancement of information technology, the internet has become the most widely used in the world, the most informative information library. Meanwhile, the various types of information resources at a

文档评论(0)

ww88606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档