- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
009数据挖掘
数据挖掘(基于认知的复杂数据对象的知识发现技术)Cognition Based Knowledge Discovery in Database (DM(KDD) of Complex Data Object)文本挖掘(TextMining)张德政联系方式:mailto:bigbank@126.combigbank@126.commailto:zdzchina@126.comzdzchina@126.com— 录文本挖掘文本挖掘的过程特征建立特征集缩减知识模式提取模型评价文本挖掘与文本挖掘有关的几个问题:文本数据分析处理(text, web)非/半结构化数据分析处理信息检索(information retrieval)自然语言理解机器学习(人工智能)国家科技图书文献中心 目前八个单位外文期刊达10500种。国家科技部以这八家资源为基础成立了国家科技图书文献中心, 建立文献数据库加工体系,建立科技文献资源网络服务系统,并全面实施对科技文献信息保障体系的标准化管理。其目标是国内出版的文献满足率达到95%,国外出版的文献满足率达到70%以上。从中心网站统计来看, 几乎每天24小时都有用户来访, 每月请求数约24万次。 文本挖掘的产生背景及发展简介信息检索(Information Retrival)传统的信息检索包括了基于关键字检索和全文检索。但是随着Internet及Intranet的迅猛发展,尤其是Web的全球普及,使得Web上信息量(尤其是基于文本的信息量)无比丰富,因此,单靠传统的网络信息检索工具将不再能够满足用户的需要。文本挖掘与信息检索比较分析(1)传统的信息检索较适合于数据类型同构的信息库。但是对于异构数据组成的信息库。(2)传统的信息检索需要用户将要寻找的事件以关键字(Key Words)的形式较准确地描述出来,作为查询提交给系统。(3)字义本身与其概念的延伸不统一,造成利用传统信息检索所寻找的信息可能仅仅是字面本身的信息,但往往人们想要的是这个信息的概念及相关的成分,而不仅仅是字面所表达的信息。(4)数据的再现(Information Representation)是文本挖掘的一个重要组成部分。系统应有能力动态和实时在线地(On the fly)表现信息的相关属性。使用户通过这样一个机制,发现信息的变化和异常。(5)传统信息检索可以被当作挖掘的底层工具,换言之,传统信息检索关注“字”的处理而文本挖掘则关心“字”的本原(Ontology)。文本挖掘与信息检索比较分析文本挖掘与信息检索比较分析(6)传统信息检索尽管引入布尔运算,作为逻辑算子使用户能够较准确地表达查询。但其结果往往导致或丢失一些信息或产生大量冗余信息。(7)传统信息检索通常是用户从信息库中去找他想要的。而文本挖掘是看信息库中到底存在些什么。①Brightware公司的Brightware,是一个自动的电子邮件阅读和解释系统。使用了规则合并,模式匹配等技术。它能够阅读和解释电子邮件,并且对所阅读的电子邮件作出相应地回复。其中包括产生一个标准的电子邮件回复函、循线递送电子邮件给合适的用户等。②Aptex公司的Convectis,具有实时文档分类功能和循线递送服务,能够处理来自网页、电子邮件、电信服务等多处来源的信息,并且带有智能型的网络有哪些信誉好的足球投注网站引擎。结合文本挖掘技术的商业应用目 录文本挖掘文本挖掘的过程特征建立特征集缩减知识模式提取模型评价国内外研究状况文本挖掘的过程特征的建立特征集的缩减学习与知识模式的提取模式质量的评价知识模式文档集文本挖掘的一般处理过程特征建立(1)分词 中文语言需要根据语义或语法结构来将句子切分成具有独立语义的单词。 由于文档的特征项一般都是专业词汇,所以在进行特征项提取时无须对普通的词汇进行切分和词频统。(2)词典设置 为了解决特征词条(即在一定程度上能够反映文档实际内容的关键字向量)相互独立与自然语言的多样性之间的矛盾。 建立三个词典:主词典、同义词词典和蕴含词词典。用于词频统计,其中主词典中的词条要求在含义上保持尽可能的独立。进行词频统计和特征提取时,以主词典中的主词条为表示词条进行处理,词条在文档中的出现频率是由主词条、同义词词条、蕴含词词条三个部分的词频统计数加权累计得到。特征建立特征提取(3)特征提取 所谓特征提取是目标表示中词条及其权值的选取。可以根据用户所给出的挖掘目标样本,得出文本数据对象的内在特征,即得到目标样本的源模式,并以此为依据进行有目的的信息提取,即进行特征模式的匹配。 (4)评价指标。 文本挖掘系统的验证一般采用测试集和交叉验证的方法,并用查全率(Recall)和精度(Precision)来衡量文本信息挖掘的效果。查全率为挖掘到的文档数与实际相关文档数之比,精度为结果集中的相关文档数
文档评论(0)