信息检索中文档表示综述.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索中文档表示综述

信息检索中文档表示综述   摘 要:本文对信息检索中文本分类、文本聚类等技术所涉及到的文档表示问题进行了详细的阐述。文中给出了各种特征选择、特征抽取方法的基本原理和计算公式,并对各种方法的优缺点做了比较。   关键词:文档表示;特征选择;特征抽取   仔信息检索领域,文本分类和文本聚类是非常关键的两项技术。在这两项技术中,文档表示又是一个至关重要的问题。在过去的发展中,人们提出了许多方法和模型来处理它。   1 文档表示   文档表示有向量空间模型、n-gram文档表示和概念文档表示等多种方法。其中最常用的文档表示方法是VSM法。该方法把文档集合中的每篇文档都表示为形如■的N维向量,其中■代表第i篇文档,向量元素■代表特征■在第i 篇文档中的权重。该权重可通过多种方法给定,如0-1法、tf-idf法等。   VSM表示方法导致的一个问题是特征空间维度过高以及数据稀疏,这使得各种文本分类和聚类算法的性能大大降低。为了解决这个问题,人们提出了许多解决方法,主要分为特征选择和特征抽取两类。前者是从原特征集合中选取一部分特征,即得到的结果是一个原特征集合的子集。后者则是通过某种函数映射形成新集合,元素形式可能与原特征完全不同,比如原集合元素是词,而新集合元素则是合并词得到的短语。一个有效的特征集合必须具有:   (1)完备性:特征集确实能表达目标内容;   (2)区分性:特征集合能够将目标与其它文档区分开。   2 特征选择   特征选择又可分为两类方法:包装法和过滤器法。   2.1 包装法   包装法将学习算法作为其评估函数的一部分,在特征空间里执行有哪些信誉好的足球投注网站,可分为顺序有哪些信誉好的足球投注网站、指数和随机算法两种。   2.1.1顺序有哪些信誉好的足球投注网站   根据不同的启发式,顺序有哪些信誉好的足球投注网站又可分为前向选取、后向去除、双向有哪些信誉好的足球投注网站、最好优先等。   (1) 前向选取   该方法从一个空集合开始,每次增加一个特征,直到遍历所有特征。每个特征是否被添加依赖于它能否改善学习器的性能。   (2)后向去除   与前向选取正好相反,该方法从完整的特征集出发,每次去掉一个特征,并观察学习其性能的变???。如果去掉该特征导致学习器性能增强,则去掉它;反之,保留。   (3)双向有哪些信誉好的足球投注网站   该方法是前向选取与后向去除两种方法的结合。由于运行过程中不会增加已经去掉的特征也不会去掉已添加的特征,所以可以保证有哪些信誉好的足球投注网站算法收敛。   (4)最好优先   最好优先从已经生成但尚未扩展的结点中选择最有希望的结点。进行扩展后,再从新生成的结点中选择最优,直到得到最优解。有哪些信誉好的足球投注网站目标是找到使预测准确性最大的特征子集。   2.1.2指数和随机算法   由于在各种顺序有哪些信誉好的足球投注网站算法中,启发式决定算法的性能,所以容易陷入局部最小值。为了克服这个缺点,指数和随机算法在有哪些信誉好的足球投注网站过程中增加了随机性。主要的方法有光束有哪些信誉好的足球投注网站、模拟退火和遗传算法三种。   (1)光束有哪些信誉好的足球投注网站   光束有哪些信誉好的足球投注网站与宽度优先有哪些信誉好的足球投注网站类似,区别是它在每层只对有哪些信誉好的足球投注网站队列中最好的前n个结点进行扩展。当队列无限长时,光束有哪些信誉好的足球投注网站退化为穷举有哪些信誉好的足球投注网站;而当队列长度为1时,该方法则退化成前向选取。   (2)模拟退火   模拟退火是一种随机最优有哪些信誉好的足球投注网站算法。该方法中,系统状态受一个较小随机变化的影响。如果新状态比旧状态好,就接受它;如果新状态比旧状态差,则以一定的概率来判断应该接受还是拒绝。   (3)遗传算法   遗传算法是借鉴达尔文生物进化论的基本原理形成的算法。算法中充分体现了优胜劣汰的思想。它从一个随机产生的初始种群开始,依次通过选择、复制、交叉、变异等步骤完成一次迭代过程。算法与实际问题的唯一接口是适应度函数的确定。   2.2 过滤器法   过滤器法与包装法的不同在于它对特征的评价独立于分类器,它经常使用一些统计和信息领域的度量对特征进行加权,主要的方法有:   2.2.1信息理论方法   (1)信息增益   信息增益用来衡量一个词在文档中出现或不出现对文档类别估计所带来的信息位数的影响。令■,…,■表示可能的分类,则词t的IG函数为:   ■ (1)   这里P(■)为第i 类的出现频率,P(t)为词t的出现频率,P(■|t)为词t出现时属于■类的条件概率。   (2)期望交叉熵   期望交叉熵与信息增益惟一的不同在于它没有考虑单词不发生的情况,计算公式如下:   ■ (2)   在实验中,用期望交叉熵进行特征选择效果优于信息增益。   (3)互信息   互信息与期望交叉熵的差别在于没有考虑词发生的频度 ,实质上这也是它一个很大的缺点。   ■ (3)   这里P(■)为第i类的出现频率,P(■|t)为第i类中出现词的条件概率,P(t)为词t的出现频率。   这种方法假设各个类别中的文本量大致相等,忽略

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档