- 1、本文档共1页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
青
春
岁
月基于文本挖掘的文献综述
□卫柯臻1,王文东2
(1.2、陕西师范大学国际商学院,陕西西安710119)
【摘要】文本挖掘(TextMining)又可称为文本知识发掘,它利用数据挖掘、计算机科学、语言学等技术,自非结构或半结构的
文字中发掘出先前未知、隐含而有用的信息。本文将基于文章的研究目的,将重点对近几年文本挖掘的实际应用进行综述。
【关键词】文本挖掘;文献综述
一、文本挖掘情感分析和文本挖掘的方法研究了网上论坛热点的检测和预测。
1、定义首先,他们创建了一个算法来自动分析一个文本的情感极性,并
文本挖掘(TextMining)又可称为文本知识发掘,它利用数获取每个文本片段的值。其次,这种算法结合K-means聚类和支
据挖掘、计算机科学、语言学等技术,自非结构或半结构的文字持向量机(SVM)来开发无监督的文本挖掘方法。最后他们根据
中发掘出先前未知、隐含而有用的信息。DanSullivan(2001)定此算法对新浪体育论坛进行了实证分析。有趣的是,ChenPenglai
义文本挖掘为“一种编辑、组织及分析大量文件的过程,为了提等人还设计出一个中国网页自杀信息挖掘系统ChineseWebpage
供特定用户特定的信息,以及发现某些特征及其间的关联”。SuicideInformationMiningSystem(Sims),以此来帮助发现潜在
2、一般处理过程的自杀特征和倾向。通过对媒体的监测,一些群体行为的发生甚
文本挖掘的重点是发现文本中的特征和模式,文本的特征表至可以得到预测、引导和监控。
示是整个挖掘过程的基础,因此,特征的抽取、选择及其表示是文本挖掘除了在情感分析方面的应用外,还在产品评价的
文本预处理的主要任务。对文本内容的特征表示主要有布尔模型、分析上得到广泛应用。SiJianfeng等人发现通过对大量网络用户
向量空间模型、概率模型和基于知识的表示模型。因为布尔模型的评论进行深层分析,能够揭示用户的兴趣。而这能够帮助企业
和向量空间模型易于理解且计算复杂度较低,所以成为文本表示更好的理解主要和潜在消费者的关注点,从而对产品进行改进。
的主要工具。李艳红和程翔则基于网络论坛使用文本挖掘技术对笔记本电脑的
二、文本挖掘应用的研究现状满意度进行研究,当然,他们仅仅是在建立评价指标体系时,通
文本挖掘的应用领域十分广泛,有学者对截止到2010年,过文本挖掘手段分析了消费者对笔记本电脑重点关注的角度和内
在WebofKnowledge(WOK)上检索到的以TextMining为关键词容,而后又使用多元回归方法建立了笔记本电脑满意度模型。
的文献进行了统计。结果表明,近年来国际上文本挖掘的研究论GhazizadehM等人还采用文本挖掘从美国国家公路交通安全管理
文呈迅猛上升势头,在2010年达到了3049篇。而4年后,这一局的车主的投诉数据库中提取出车辆问题和相关的发展趋势集群,
数字已经达到7269篇。关于文本挖掘的相关文献大多集中在新算从而节省了人力资源,并能够支持早期发现问题,更及时地采取
法的提出和文本挖掘的实际应用方面。基于本文的研究目的,将安全干预措施。
重点对近几年文本挖掘的实际应用进行综述。4、商业金融领域
1、生物医疗领域正如上述文本挖掘在产品评价方面的有益应用,其在
文档评论(0)