Python数据分析与数据挖掘 第7章 数据规约.ppt

Python数据分析与数据挖掘 第7章 数据规约.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.6 T-SNE T-SNE由T和SNE组成,即采取随机近邻嵌入(Stochastic Neighbour Embedding)的方法,按照T分布曲线,将较为接近的数据样本尽可能靠近聚拢,并在低维空间中进行表达,因而可以达到(以相似性为特征的)降维的目的。 T-SNE #载入手写数字图像数据 digits = datasets.load_digits(n_class=5) #载入数字0,1,2,3,4的数据 X = digits.data y = digits.target ? tsne = manifold.TSNE(n_components=3, init=pca, random_state=0) X_tsne = tsne.fit_transform(X) X_tsne = preprocessing.minmax_scale(X_tsne, feature_range=(0,1)) ? # 绘制图形(略) 调用datasets.load_digits()函数载入手写数字图像数据,使用TSNE方法对数据进行处理,得到三维空间输出数据,并进行可视化以便进行有监督比较分析。 7.7 特征选择 在scikit-learn扩展库中,实现了以下几类进行特征选择的算法: 1)移除低方差的特征变量VarianceThreshold(); 2)单因素特征选择GenericUnivariateSelect(); 3)递归特征消除RFE(recursive feature elimation); 4)使用元转换器SelectFromModel; 5)Lasso回归 移除低方差的特征变量 sklearn.feature_selection.VarianceThreshold(threshold) transformer.variances_ #查看各特征变量的方差 array([0 0 3 0) from sklearn.feature_selection import VarianceThreshold from sklearn import datasets ? data = datasets.load_iris(return_X_y=False) X = data.data #原始数据的shape为(150, 4) y = data.target ? transformer = VarianceThreshold(threshold=0.5) #建立模型 X_new = transformer.fit_transform(X)#处理数据 ? print(X_new.shape) #结果为(150, 3) transformer.get_support() #查看支持特征,第二个特征被移除 array([ True, False, True, True]) 这种方法较为直接,就是计算各个特征属性的方差,并将低于设定阈值方差的特征属性移除。 单因素特征选择GenericUnivariateSelect() sklearn.feature_selection.GenericUnivariateSelect(score_func=function f_classif, *, mode=percentile, param=1e-05) 参数 说明 score_func 为以X, y为输入并能够输出检验结果及p值(scores, pvalues)的函数,默认为ANOVA的F检验 mode 为特征选择的模式,可以是{percentile, k_best, fpr, fdr, fwe},分别表示按比例、k个最优、基于假正率(false positive rate)、基于伪发现率(false discovery rate)和基于族系错误率(family-wise error rate) param 为对应的特征选择模式的参数(例如,mode=‘percentile’时,为要保留的特征的比例;mode=k_best时为要选择的特征的数量)。 单变量特征选择基于单变量统计检验结果来选择最佳特征,可以看作是评估的预处理步骤。 单因素特征选择GenericUnivariateSelect() 例如,对于类别分类属性或连续因变量属性,可以使用不同的评估函数,调用GenericUnivariateSelect()函数进行特征选择 from sklearn.feature_selection import GenericUnivariateSelect from sklearn.feature_selection import chi2, f_clas

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档