网站大量收购闲置独家精品文档,联系QQ:2885784924

共词网络LDA模型的中文文本主题分析.PDF

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
共词网络LDA模型的中文文本主题分析.PDF

总第277 期 2016 年 第12 期 共词网络LDA 模型的中文文本主题分析: 以交通法学文献(2000-2016)为例* 马 红 1 蔡永明 2 1 ( 山东交通学院交通法学院 济南 250357) 2(济南大学商学院 济南 250022) 摘要: 【目的 】通过结合传统LDA 模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者 优势, 降低由少量文献产生的高频词汇的干扰, 提高主题凝聚性。【方法 】在交通法学文献摘要文本主题分析中, 加入文献的关键词作为分词复合词典, 提高语义识别度; 提出 CA-LDA 模型(Latent Dirichlet Allocation Model with Co-word Analysis), 在传统LDA 模型的基础上加入共词网络分析, 以共词网络拓扑结构参数作为权重控制 词汇主题分配(采用介数中心度), 优先提取同时具有高共现性(中介性)和高频率的词汇。【结果 】CA-LDA 模型可 以得到多篇文献同时共现的高频词汇, 这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映 词频概率, 同时也能从词汇关联上发现枢纽词汇, 更深入理解该领域的研究热点。【局限 】CA-LDA 模型主题数 目K 的取值采用混淆度标准交叉验证获得, 如果在实际分析中K 值太大, 不利于文献主题的分类整理, 未来研究 需要对该结果进一步处理来凝聚主题。【结论 】本文将该模型应用于交通法学研究领域热点主题分析, 在处理大 规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。 关键词: 共词网络LDA 主题模型(CA-LDA) 主题词共现 网络拓扑结构参数 随机梯度下降 交通法学热词 分类号: G254 TP391 效工具。 1 引 言 主题模型主要采用相似度计算来判断新主题是否 信息的不断堆积导致文本的数据量日益庞大。这 属于已知主题, 基于统计知识, 对文本进行信息过滤, 些文本远远超出一个人的正常阅读能力, 同时, 越来 然后利用分类策略跟踪相关主题。目前常用的模型主要 越多的信息以电子文本的形式存储, 为计算机分析文 有: 凝聚层次聚类算法(Hierarchical Clustering Algorithm, 本提供了便利。主题模型(Topic Modeling)能够发现“文 HCA)[2-3], 语言模型(Language Model, LM)[4-5]、向量空 档–词语”之间所蕴含的潜在语义关系(即主题) 。主题 间模型(Vector Space Model, VSM)[6-7]和概率主题模型 由一个核心事件或活动以及所有与之直接相关的事件 (Probabilistic Topic Models, PTM)。其中, 潜在狄利克雷 和活动组成[1] 。利用相关自然语言处理技术, 可以对文 分配(Latent Dirichlet Allocation, LDA)模型属于概率主 献内容进行特征分析、提取主题概念、追踪感兴趣的 题模型, 被公认为是最成功的主题模型。对 LDA 模型 主题, 快速、准确获得领域热点知识和发展趋势。主 的改进主要有快速折叠吉布斯采样LDA 模型[8]、分布 题分析技术已经成为舆情分析、科研选题等方面的有 式学习 LDA 模型[9-10]; 打破原有可交换的假设的关联 通讯作者: 蔡永明, ORCID: 0000-0001-7571-1761, E-mail: cymujn@163.com 。 *本文系山东省社会科学规划项目“基于复杂网络理论的山东省基础设施系统脆弱性研究”(项目编号: 14CGLJ03)、山东省研究生 教学创新项目“基于在线学习的研究生学术素养提升开放式生态系统研究”(项目编号: SDYC15045)和济南市哲学社会科学规划项目 “济南市网络预约出租车运营状况调查与管理研究”(项目编号: JNSK16C26)的研究成果之一。

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档