(2009,2011)特征简约(feature reduce)方法比较.pdf

下载文档

0
0
约5.73千字
约 6页
2017-11-17 发布于江苏
举报
版权申诉
保障服务

(2009,2011)特征简约(feature reduce)方法比较.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(2009,2011)特征简约(feature reduce)方法比较

(2009,2011) feature (2009,2011) feature ()分类算法之特征简约（ffeeaattuurree reduce reduce rreedduuccee）方法比较 By 冲出宇宙从理论上讲，特征维度越多，需要的样本就越多，否则计算出来的分类模型和一个普通的线性模型差不多。比如在采用svm 进行分类的时候，如果维度大而样本少，其结果和不采用任何非线性核函数的结果差不多。另外一方面，如果纬度太多，任何算法的计算速度都会下降很严重。特征简约（feature reduce）是一种常见的降维技术（即减少特征维度），它通常有如下几种技术： 1 df 1 df 11）ddff：根据特征在文档中出现的频率 2 IG: 2 IG: 22）IIGG:: 根据信息增益 3 MI: 3 MI: 33）MMII:: 4 CHI: 4 CHI: 44）CCHHII:: 5 SD: 5 SD: 55）SSDD:: 标准差 6 DF*IDF 6 DF*IDF 66）DDFF**IIDDFF 7 DF*IDF*SD 7 DF*IDF*SD 77）DDFF**IIDDFF**SSDD 本文编写了一段代码，试图用一些简单的例子来证明哪种技术更好。此代码的思路如下： 1 1 11）构造一个样本矩阵举例来说，现在已知有4个类，而现在4个词语。把每个类包含的词语个数向量组合在一起，构造一个矩阵，假设为： 1111 1111 2211 2211 1100 1100 1000 1000 1110 1110 这里，第一行表示第一个词语在每个类中都出现了一次，第二行表示第二个词语在前面2个类中出现了2次，在后面2个类中各出现了1次。 2 2 22）人工分析直观上面来说，我们根据上面的矩阵，可以了解到如下信息： 1、第一个词语没有任何分离度，它不包含啥有效信息；因为它在每个类中出现的次数一样；我们给它的参考分值为0； 2、第二个词语有一定分离度，它具有明显的偏向性。我们给它的参考分值为0.4； 3、第三个词语分离度较高，可以把4个类划分为2部分。我们给它的参考分值为0.45；第1页 4、第四个词语区分度很高，有它存在的文档几乎可以认为就是属于第一个分类了。我们给它的参考分值为0.8； 5、第五个词语的分离度也很高，没有它的时候，有一定概率属于第4个分类。我们给它的参考分值为0.45； 3 3 33）实际检验用程序跑一遍，看看效果和自己人工分析的是否一致。代码如下： /** * 测试特征简约的各种算法效果 br * 结果分析： *ol *liCHI 和DF*IDF*SD 的效果好于其他算法/li */ol * 参考文献： *ul *li[97][YimingYang, JanO. Pedersen]Acomparative studyon feature *selectionintext categorization /li *li[08][熊忠阳, 黎刚, 陈小莉, 陈伟] 文本分类中词语权重计算方法的改进与应用 /li */ul * *@autho