(2009,2011)特征简约(feature reduce)方法比较.pdf

(2009,2011)特征简约(feature reduce)方法比较.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(2009,2011)特征简约(feature reduce)方法比较

(2009,2011) feature (2009,2011) feature ()分类算法之特征简约(ffeeaattuurree reduce reduce rreedduuccee)方法比较 By 冲出宇宙 从理论上讲,特征维度越多,需要的样本就越多,否则计算出来的分类模型和一个普通 的线性模型差不多。比如在采用svm 进行分类的时候,如果维度大而样本少,其结果和不 采用任何非线性核函数的结果差不多。另外一方面,如果纬度太多,任何算法的计算速度都 会下降很严重。特征简约(feature reduce)是一种常见的降维技术(即减少特征维度),它 通常有如下几种技术: 1 df 1 df 11)ddff:根据特征在文档中出现的频率 2 IG: 2 IG: 22)IIGG:: 根据信息增益 3 MI: 3 MI: 33)MMII:: 4 CHI: 4 CHI: 44)CCHHII:: 5 SD: 5 SD: 55)SSDD:: 标准差 6 DF*IDF 6 DF*IDF 66)DDFF**IIDDFF 7 DF*IDF*SD 7 DF*IDF*SD 77)DDFF**IIDDFF**SSDD 本文编写了一段代码,试图用一些简单的例子来证明哪种技术更好。此代码的思路如下: 1 1 11)构造一个样本矩阵 举例来说,现在已知有4个类,而现在4个词语。把每个类包含的词语个数向量组合在 一起,构造一个矩阵, 假设为: 1111 1111 2211 2211 1100 1100 1000 1000 1110 1110 这里,第一行表示第一个词语在每个类中都出现了一次, 第二行表示第二个词语在前面2个类中出现了2次,在后面2个类中各出现了1次。 2 2 22)人工分析 直观上面来说,我们根据上面的矩阵,可以了解到如下信息: 1、第一个词语没有任何分离度,它不包含啥有效信息;因为它在每个类中出现的次数 一样; 我们给它的参考分值为0; 2、第二个词语有一定分离度,它具有明显的偏向性。 我们给它的参考分值为0.4; 3、第三个词语分离度较高,可以把4个类划分为2部分。 我们给它的参考分值为0.45; 第1页 4、第四个词语区分度很高,有它存在的文档几乎可以认为就是属于第一个分类了。 我们给它的参考分值为0.8; 5、第五个词语的分离度也很高,没有它的时候,有一定概率属于第4个分类。 我们给它的参考分值为0.45; 3 3 33)实际检验 用程序跑一遍,看看效果和自己人工分析的是否一致。 代码如下: /** * 测试特征简约的各种算法效果 br * 结果分析: *ol *liCHI 和DF*IDF*SD 的效果好于其他算法/li */ol * 参考文献: *ul *li[97][YimingYang, JanO. Pedersen]Acomparative studyon feature *selectionintext categorization /li *li[08][熊忠阳, 黎刚, 陈小莉, 陈伟] 文本分类中词语权重计算方法的改进与应用 /li */ul * *@autho

文档评论(0)

jiayou118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档