- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国内图书分类号:TP391.3
国际图书分类号:004.8
学校代码:10213
密级:公开
工学硕士学位论文
基于点间互信息的主题优化方法
硕 士 研 究 生:赵斌
导
师:丁宇新 副教授
申 请 学 位:工学硕士
学
科:计算机科学与技术
所 在 单 位:深圳研究生院
答 辩 日 期: 2012 年 12 月
授予学位单位:哈尔滨工业大学
- 21 -
Classified Index: TP391.3
U.D.C: 004.8
Dissertation for the Master Degree of Science in
Engineering
TOPIC OPTIMIZATION METHOD BASED ON
POINTWISE MUTUAL INFORMATION
Candidate:
Supervisor:
Academic Degree Applied for:
Specialty:
Affiliation:
Date of Defence:
Zhao Bin
Associate Prof. Ding Yuxin
Master of Science in Engineering
Computer Science and Technology
Shenzhen Graduate School
December, 2012
Degree-Conferring-Institution: Harbin Institute of Technology
- 22 -
哈尔滨工业大学工学硕士学位论文
摘
要
当今世界,随着信息技术的不断进步,各类信息资源都以较快的速度增长
并呈现出海量的特征,其中数据主要还是以文本的形式出现。信息量已经满足
人们的需求,但是如何高效地管理并且使用海量数据成为目前迫切需要解决的
问题,这促进了对文本分类相关领域的研究。文本分类技术研究的主要核心内
容包括两个部分:分类模型和文本表示。目前文本表示方法可以分为两种类型,
一种类型是引入语言学特征;另一种类型利用统计学方法挖掘出文本的主题信
息。前者由于需要较为复杂的语言学特征处理从而降低了整个系统的效率,其
实用性受到影响;后者的典型代表就是 PLSA 语义模型以及 LDA 语义模型。语
义模型是一种基于统计学理论的概率模型,模型构建出“文档-主题-词汇”三层
结构来得到数据集中的潜在语义(主题)。
本文给出了基于点间互信息的 LDA(Point-wise Mutual Information Latent
Dirichlet Allocation,PMI-LDA)主题模型和基于最近距离的 LS(Laplace Score)
主题选择算法。LDA 模型不是判别模型,而是一个生成模型,在生成文本的过
程中通过 EM 算法得到潜在的主题层。但是,在利用 LDA 主题模型生成文本的
过程中,模型会同等对待文本中的每一个单词,这样会造成主题向高频词倾斜,
同时还会造成主题重叠现象。本文的主要贡献有三点:首先,提出 PMI-LDA
主题模型,模型能够克服主题向高频词倾斜及主题重叠的问题,使得我们提取
出的文本主题更能表征一篇文本。实验证明,本课题提出的算法是可行的。然
后,本文还从两个角度来评价提取出主题的优劣,一是从主题一致性、可读性
上来评价,从主题本身出发,根据主题所包含的单词的可读性和一致性,对主
题的优劣进行评价;二是从模型中主题的区别能力和相似性上来评价,从整个
模型出发,根据主题的相似性和区别能力来评价提取出的主题的优劣。从实验
中可以清晰的看到,PMI-LDA 主题模型提取出的主题,不管是在可读性、一致
性上,还是在区别能力、相似性上都优于 LDA 主题模型提取的主题。最后,当
使用主题作为文本的特征时,根据主题存在优劣的事实,不同的主题不应该同
一而视,课题提出了基于最近距离的 LS 算法来计算主题的权值,并应用到文
本分类中。
关键词:主题模型;Latent Dirichlet Allocation;基于点间互信息的 LDA 主题模
型;主题优劣;主题加权
I
哈尔滨工业大学工学硕士学位论文
Abstract
In today’s world, with the continuous advancement of information technology,
the internet has become the most widely used in the world, the most informative
information library. Meanwhile, the various types of information resources at a
您可能关注的文档
- 核心力量训练对普通高校大学生身体协调性影响效果实验地研究.doc
- 荷尔德林翻译作品及翻译思想地研究.doc
- 黑龙江省高校开设冰壶课程可行性的研究和实践.doc
- 黑龙江省国际旅游竞争力地研究.doc
- 黑龙江省农行代收代付业务发展对策的研究.doc
- 黑龙江省体育教育专业本科毕业生就业业能力和培养的研究.doc
- 亨利·卢斯新闻实践和编辑思想的研究.doc
- 横向磁场永磁直线电机位置伺服系统的研究.doc
- 胡塞尔“前谓词经验”理论地研究.doc
- 湖南茶陵经济开发区产业发展战略的研究论文.doc
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
文档评论(0)