Python数据分析与数据挖掘第7章数据规约.ppt

下载文档

4
0
约1.01万字
约 27页
2023-01-30 发布于甘肃
举报
版权申诉
保障服务

Python数据分析与数据挖掘第7章数据规约.ppt

1、本文档共27页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

7.6 T-SNE T-SNE由T和SNE组成，即采取随机近邻嵌入（Stochastic Neighbour Embedding）的方法，按照T分布曲线，将较为接近的数据样本尽可能靠近聚拢，并在低维空间中进行表达，因而可以达到（以相似性为特征的）降维的目的。 T-SNE #载入手写数字图像数据 digits = datasets.load_digits(n_class=5) #载入数字0,1,2,3,4的数据 X = digits.data y = digits.target ? tsne = manifold.TSNE(n_components=3, init=pca, random_state=0) X_tsne = tsne.fit_transform(X) X_tsne = preprocessing.minmax_scale(X_tsne, feature_range=(0,1)) ? # 绘制图形（略）调用datasets.load_digits()函数载入手写数字图像数据，使用TSNE方法对数据进行处理，得到三维空间输出数据，并进行可视化以便进行有监督比较分析。 7.7 特征选择在scikit-learn扩展库中，实现了以下几类进行特征选择的算法： 1）移除低方差的特征变量VarianceThreshold()； 2）单因素特征选择GenericUnivariateSelect()； 3）递归特征消除RFE(recursive feature elimation)； 4）使用元转换器SelectFromModel； 5）Lasso回归移除低方差的特征变量 sklearn.feature_selection.VarianceThreshold(threshold) transformer.variances_ #查看各特征变量的方差 array([0 0 3 0) from sklearn.feature_selection import VarianceThreshold from sklearn import datasets ? data = datasets.load_iris(return_X_y=False) X = data.data #原始数据的shape为(150, 4) y = data.target ? transformer = VarianceThreshold(threshold=0.5) #建立模型 X_new = transformer.fit_transform(X)#处理数据 ? print(X_new.shape) #结果为(150, 3) transformer.get_support() #查看支持特征，第二个特征被移除 array([ True, False, True, True]) 这种方法较为直接，就是计算各个特征属性的方差，并将低于设定阈值方差的特征属性移除。单因素特征选择GenericUnivariateSelect() sklearn.feature_selection.GenericUnivariateSelect(score_func=function f_classif, *, mode=percentile, param=1e-05) 参数说明 score_func 为以X, y为输入并能够输出检验结果及p值(scores, pvalues)的函数，默认为ANOVA的F检验 mode 为特征选择的模式，可以是{percentile, k_best, fpr, fdr, fwe}，分别表示按比例、k个最优、基于假正率(false positive rate)、基于伪发现率(false discovery rate)和基于族系错误率(family-wise error rate) param 为对应的特征选择模式的参数（例如，mode=‘percentile’时，为要保留的特征的比例；mode=k_best时为要选择的特征的数量）。单变量特征选择基于单变量统计检验结果来选择最佳特征，可以看作是评估的预处理步骤。单因素特征选择GenericUnivariateSelect() 例如，对于类别分类属性或连续因变量属性，可以使用不同的评估函数，调用GenericUnivariateSelect()函数进行特征选择 from sklearn.feature_selection import GenericUnivariateSelect from sklearn.feature_selection import chi2, f_clas

您可能关注的文档

文档评论（0）

dllkxy + 关注: 实名认证

内容提供者

本文库主要涉及建筑、教育等资料，有问题可以联系解决哦

咨询Ta 进入空间

用户编号：5213302032000001

1亿VIP精品文档

更多 >

Python数据分析与数据挖掘第7章数据规约.ppt