- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文字云及主题模型的统计挖掘_程玉胜.pdf
网络出版时间:2014-03-12 10:43
网络出版地址:/kcms/detail/34.1150.N1043.009.html
鄢
圆园员源 年圆 月 安庆师范学院学报渊 自然科学版冤 云藻遭援圆园员源
第圆园 卷第员 期 允燥怎则灶葬造 燥枣 粤灶择蚤灶早 栽藻葬糟澡藻则泽 悦燥造造藻早藻渊晕葬贼怎则葬造 杂糟蚤藻灶糟藻 耘凿蚤贼蚤燥灶冤 灾燥造援 圆园 晕燥援员
文字云及主题模型的统计挖掘
员 圆
程玉胜 袁梁摇 辉
渊安庆师范学院 员援计算机与信息学院袁圆援统计所袁安徽安庆圆源远员猿猿冤
摇 摇 摘摇 要院 互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据袁如何从这些海量电
子文档中获取需要的信息并以高效直观信息图的形式展现袁成为统计分析工作者的一项主要任务遥 文字云是信息图表
达的一种新型文本显示方式袁利用文字云和主题模型文本挖掘方法袁对文本进行移除数字尧去除停用词等预处理操作袁然
后执行中文分词袁构建语料库袁建立文档原 词条矩阵袁最后以文字云和主题模型的形式呈现挖掘结果遥 实验中主要利用砸
语言袁以多年粗糙集会议纪要为实验数据进行了相关统计分析袁并对比了栽葬早曾藻凿燥 文字云生成器袁结果表明袁从文字云中
比较容易获取文本的重要信息如主题模型等袁挖掘效果较好遥
关键词院 文本挖掘曰文字云曰主题模型曰统计分析曰粗糙集
中图分类号院 悦愿员圆 文献标识码院 粤 文章编号院 员园园苑 原源圆远园渊圆园员源冤园员 原园园猿圆 原园源
摇 摇 随着网络技术的飞速发展袁作为互联网信息 字云是信息图表达的一种新型文本显示方
主要载体的宰藻遭 页数量正以几何级的速度增长遥 式咱猿 原源暂 遥 然而袁文字云在表现形式上也存在细微
据统计袁网络上愿园豫 的信息都是以半结构化和非 区别袁有模仿猿阅 的袁有平面效果的袁在颜色选择尧
结构化的文本形式存在袁例如博客尧新闻尧各种文 字体尧轮廓形状上都有所不同袁这也造就了不同的
咱源暂
档等遥 如何从这样海量电子数据集中快速尧准确 文字云工具 遥 其中袁陨皂葬早藻糟澡藻枣 的优点是自定义
地提取到所需信息袁国内外开展了大量的研究工 文字云轮廓袁但缺少词频统计曰宰燥则凿造藻 是一种基
作袁并取得了一定的成果遥 目前袁常用的文本挖掘 于允粤灾粤 的很有名气的文字云生成工具袁有人做
方法有文本分类尧文本聚类尧摘要提取和基于语义 过研究袁发现使用文字云参与英语教学袁会起到积
咱员袁猿暂
的文本挖掘等 袁但是袁这些技术对文本的处理 极的促进作用袁但可惜的是不支持中文袁 而且不
比较单一袁没有较完整的文本挖掘体系和可视化 是严格的基于词频统计的文本可视化工
咱源袁远暂 咱源 原缘袁员园 原员员暂
的文本挖掘结果 袁使得挖掘的结果不具有很 具 曰栽葬早曾藻凿燥不仅支持中文而且生成很多
好的利用价值遥 如何以高效直观的信息图展现文 效果袁并嵌入了词频统计袁是一
文档评论(0)