- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本数据挖掘与其应用
文本数据挖掘及其应用
摘要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题。
关键词:文本挖掘 研究现状 相关技术 应用
1 引言
随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程n1的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。
2 文本挖掘概述
2.1文本挖掘介绍
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。
1)文本挖掘的定义
文本挖掘作为数据挖掘的一个新主题 引起了人们的极大兴趣,同时它也是一个富于争议的研究方向。目前其定义尚无统一的结论,需要国内外学者开展更多的研究以进行精确的定义,类似于我们熟知的数据挖掘定义。我们对文本挖掘作如下定义。
定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。
2 )文本挖掘的研究现状
国外对于文本挖掘的研究开展较早,50年代末,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想于自动分类。1960年,Maron发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具等,其中首次将KDD中的只是发现模型运用于KDT。
我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处于消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:
(1) 没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。
(2) 中文文本的特征提取与表示大多数采用“词袋”法,“词袋”法即提取文本高词频构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。
(3) 知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。
2.2 文本挖掘主要内容
存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘,事实上,最近研究表明公司信息有80%包含在文本文档中。
1)文本分类
文本分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档,而且可以通过限制有哪些信誉好的足球投注网站范围来使文档的查找更容易、快捷。目前,用于英文文本分类的分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(Na?ve Bayes),向量空间模型(Vector Space Model)以及线性最小二乘LLSF(Linear Least Square Fit)。
2)文本聚类
聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。
3)文本结构分析
其目的是为了更好地理解文本的主题思想,了解文本表达的内容以及采用的方式,最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。
4)Web文本数据挖掘[4]
在Web迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而知识相对匮乏。据估计,Web已经发展成为拥有3亿个页面的分布式信息空间,而且这个数字仍以每
您可能关注的文档
- 强大按钮类CButtonST实例演示与详解(附源码).doc
- 工程材料和成形技术基础复习(重点完整版).doc
- 工程监理岗位职责和奖罚条例.doc
- 建国60年我国地学期刊发展与展望_郝梓国.pdf
- 工程热力学思考题和答案 第三章.pdf
- 建设工程施工总包与技术要求说明(类似于技术性补充协议).doc
- 工程材料试题和答案合集.doc
- 当代英国高等院校学前教育专业实习特点与其启示.pdf
- 工程硕士专业文献翻译和综述.doc
- 开关电源变压器磁心气隙量公式辨析计算.pdf
- 中国国家标准 GB/T 45205-2024经营者公平竞争合规管理规范.pdf
- 《GB/T 45205-2024经营者公平竞争合规管理规范》.pdf
- 中国国家标准 GB/T 20032-2024项目风险管理 应用指南.pdf
- GB/T 20032-2024项目风险管理 应用指南.pdf
- 中国国家标准 GB/T 14124-2024机械振动与冲击 固定建筑结构的振动 振动测量及对结构影响评价的指南.pdf
- 《GB/T 14124-2024机械振动与冲击 固定建筑结构的振动 振动测量及对结构影响评价的指南》.pdf
- GB/T 14124-2024机械振动与冲击 固定建筑结构的振动 振动测量及对结构影响评价的指南.pdf
- 《GB/T 20032-2024项目风险管理 应用指南》.pdf
- 中国国家标准 GB/T 25367-2024柴油机电控共轨系统 喷油器总成.pdf
- 《GB/T 25367-2024柴油机电控共轨系统 喷油器总成》.pdf
最近下载
- 2025杭州钱塘新区建设投资集团有限公第一次招聘9人笔试备考题库及答案解析.docx
- 2025年山东城市服务职业学院单招职业倾向性测试题库及答案(夺冠系列).docx VIP
- 统编版三年级语文下册第一单元单元整体 教学设计.docx VIP
- 耳鼻喉科病例讨论(共15张课件).pptx VIP
- 2025年山东城市服务职业学院单招职业倾向性测试题库一套.docx VIP
- 《教育强国建设规划纲要(2024—2035年)》解读讲座.pptx
- 捷捷微电:首次公开发行股票并在创业板上市招股说明书.docx
- 第一节经皮穿刺术.ppt
- 课件:十五种病症保健按摩课件.ppt
- 2025年山东城市服务职业学院单招职业技能测试题库ab卷.docx VIP
文档评论(0)