- 1、本文档共122页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本挖掘若干关技术研究
摘要
祷要
砥魁法如烟海的电予信息,如蜒程助人们有效媳收集积逸撵感兴趣的籀愚,
妇俺帮韵鼹户京目盏增多静售怠中发襞潜在有蠲静知滚己成为信惑技术领城豹
燕点简鼷。数据挖掘就怒为解决邈~问题而产生的研究领域。囱90年代产生以
来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚
类分橱、趋势分析等多个方恧。由予现实生活中终大部分信息爨源是以非续糖他
数据静形式存在,露数据挖掘粼謦遮嚣结梅化数据船关系数攒簿中韵数摇为对
象,因诧对非结构亿信意进行挖掘成为继数据挖滴之后出现的又~课题。
在常见的菲结构化数据如文本、图像、视频中,文本数据是应用最为广泛的
一釉形式,常用予数字图书键、产燕嚣秉、溉阉鳃、医学掇告、缀织及令人主页。
在自然语畜理髂、文本爨凌攘要、信怠提取、信惑过滤、信怠检索等镬域,文本
挖掘技术都肖着广泛浆敷角,灏谣院数据挖掘疑有受高的商娥价值。
奉交潋文本数据为磷究对象,对文本挖掘的蓑于关键披术进行研究,主要包
括文本特征提取和特授逸择、文本关联分掇、文本关联分类,并提爨受有效熬文
本挖掘算法。本文的磺究工炸和剑耱内缛包括以下凡个方瑟:
(1)剩焉浸,l、词频阙值韵文档颓特征评估函数减少噤声特征的比铡,提离文
本分类的质鬟。
目前,文本特醒选择簧遍采用特铤评健涵数的方法,鍪秘评悠函数摄掇冀
使用魄是词频逐楚文挡频霄黪不圈。我们针对噪势特程藤调频普遍较低静
特点,提逛剥照最小谢频溺德翁文档频方法进行特征选择。分巍对互信息、
信慰蹭益、Z统计三种特征评估函数采粥该方法进行实验,结果表明最小
词频阈值有效地减少特征集中噪声特征历占的比倒,并且发现睫蘑阕馕的
提离不圃评热函数褥戮的特髹集魏予一致。
(2)针对文本关联分析中难以确定最小支持度阕镶的问题,提出N个疑频繁
项集挖獭算法。
在文本关联分板中,频繁顼熊挖掇是重要鹃环节,值程频繁顼集挖撼过程
中,霜户难黻定义合适静最小支持度闺镇逸一问题始终存在。本文提出基
于最小支持液闽值动态调整篇略的N个竣频繁项集挖撼算法,算法邋过
指定需要产生的频繁项集的数量N寒控捌频繁瑷集螅援模。挖掘过程中,
不叛投据已鸯缝暴调离最小支持痰蓠僮,献丽达到降低筏索空间、羧蛰挖
掘襁麓的蟊的。裰裙这~策略分别提出类Apriori算法和纂予例排艇降的
InWMatrix算法挖掘前N个频繁项集。
第1受
攮要
(3)通过考虑文档中特征重复出现的次数改迸文本关联分类的性能。
针对现有关联分类方法只考虑特征词在文稻中出现与否,忽略出现次数
这一文本鬟要信怠,本文提出基于带词频的频繁颁集中文文本分类算
不带词频静频繁矮集,本文提穗带漏频的频繁顼鬃挖掘算法。研究结莱
表甥,词频懿鞋入可戬提离关联分类懿准礁率。_}魄终,为解决一般关联
分类算法剥罴攫则修剪提蔫分类效率易导致分类袋量下降瓣阉题,提滋
基予分类嫂则撼熬覆盏攫刘有哪些信誉好的足球投注网站及分类算法。疆究结粜表明,剽焉分类
援则楗分类可以提高分类效率龆不降{氛分类矮量。
H)提感基于搬则姬毅和梯本如权薅秘皂适应搬掇方法改善文本关联分类
的稳定性。
在研究文本关联分类的过穰中发现,样本袋的质量葶鞋其特惩的分蠢对分
类结果影响很大,即使是嘲一秘分类算法,在不同的梯本嶷上使用,分
类效果也可能明显不同。特剐是在ⅪII练样本的特征分布不均时,关联分
类的准确率明照降低。本文提出两籼自适应加权算法解决这一问题:
一种是通过规则自适应加权的方法(WARC)调蕤规则强弱不均的憾
况。提出分类规则强度的概念,并给出有效的分类规则强度计算公式和
规则调蕤因子计算公式。经过调整因子调整后的规则强弱趋于均匀,分
类质量明显改善;
另外一种是通过样本权重自
文档评论(0)