- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ICE-LDA模型的中英文跨语言话题发现研究.pdf
第49卷第2期 工程科学与技术 v01.49N。.2
2017年3月 ADVANCEDENGINEERINGsCIENCES Mar.2017
·CTCIS se.201601032
2016推荐论文· DoI:10.15961/j.jsue
基于ICE-LDA模型的中英文跨语言话题发现研究
陈兴蜀1…,罗 梁2,王海舟1…,王文贤1芦,高悦2
(1.四川大学网络空间安全研究院,四川成都610065;2.四川大学计算机学院,四川成都610065)
摘要:近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问
题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作
为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,
本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的IcE-LDA模型进行跨英汉语
言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行Js距离检测和话题文本分布相
似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行
话题建模,在建模过程中利用TF—IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,
分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构
建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话
题进行发现,而且能够对语料不平衡的情况进行共现话题发现。
关键词:话题发现;跨英汉文本;IcE—LDA模型;TF.IDF特征提取;共现话题
中图分类号:TP391 文献标志码:A 文章编号:2096_3246(2017)02_0100J07
andResearchon inChineseand
Analysis Cro路LangImgeTopicDiscoVery EngIish
明删瓜咿^“1一,£∞&o增2,吼ⅣG胁挑∥,黝ⅣG耽般耐’“,cA0‰2
Research 0f
(1.cybersecurityInst.,SichuaIluniv,,chengdu6l0065,china;2.CouegeComputerSci.,Sichuanuniv.,chengdu610065,China)
the oftheIntemetunderthe of networkdatafor texts
Abstract:with cross—language
rapiddevelopment backFounddobalization,mining
in
hasbecomeone0fthemost researchneldsin hot and fortextsbotll
文档评论(0)