数据分析师-数据挖掘与机器学习-机器学习基础_决策树与随机森林.docxVIP

数据分析师-数据挖掘与机器学习-机器学习基础_决策树与随机森林.docx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE1

PAGE1

机器学习基础概览

1机器学习的定义与分类

机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并做出预测或决策。机器学习主要分为三类:监督学习、非监督学习和强化学习。监督学习和非监督学习是本次教程的重点。

1.1监督学习

监督学习是机器学习中最常见的类型,它通过已知的输入和输出数据训练模型,以便模型能够预测新的未知数据的输出。监督学习可以进一步分为回归和分类任务。

1.1.1回归任务

回归任务的目标是预测一个连续值的输出。例如,预测房价、股票价格等。下面是一个使用Python的Scikit-learn库实现的线性回归示例:

#导入必要的库

importnumpyasnp

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.linear_modelimportLinearRegression

fromsklearn.metricsimportmean_squared_error

#创建数据集

X=np.random.rand(100,1)

y=2+3*X+np.random.rand(100,1)

#划分训练集和测试集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#创建线性回归模型

model=LinearRegression()

#训练模型

model.fit(X_train,y_train)

#预测

y_pred=model.predict(X_test)

#计算均方误差

mse=mean_squared_error(y_test,y_pred)

print(MeanSquaredError:,mse)

1.2非监督学习

非监督学习处理的是没有标签的数据,目标是发现数据的内在结构或模式。常见的非监督学习任务包括聚类和降维。

1.2.1聚类任务

聚类是将数据集中的样本分为几个组,使得组内的样本相似,组间的样本差异大。下面是一个使用K-means算法进行聚类的示例:

#导入必要的库

importnumpyasnp

importmatplotlib.pyplotasplt

fromsklearn.clusterimportKMeans

#创建数据集

X=np.random.rand(100,2)

#创建K-means模型

model=KMeans(n_clusters=3)

#训练模型

model.fit(X)

#预测

y_pred=model.predict(X)

#可视化聚类结果

plt.scatter(X[:,0],X[:,1],c=y_pred)

plt.show()

2监督学习与非监督学习

监督学习和非监督学习的主要区别在于数据是否有标签。监督学习需要有输入和输出的配对数据,而非监督学习则不需要。监督学习的目标是预测,而非监督学习的目标是发现数据的内在结构。

3回归与分类任务简介

回归和分类是监督学习的两种主要任务。回归任务预测的是连续值,而分类任务预测的是离散值。例如,预测一个人的年龄是回归任务,而预测一个人的性别是分类任务。

3.1分类任务示例

下面是一个使用决策树进行分类的示例。我们将使用一个简单的数据集,其中包含两个特征:年龄和收入,以及一个标签:是否购买了保险。

#导入必要的库

importpandasaspd

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.treeimportDecisionTreeClassifier

fromsklearn.metricsimportaccuracy_score

#创建数据集

data=pd.DataFrame({

Age:[25,30,35,40,45,50,55,60,65],

Income:[25000,30000,35000,40000,45000,50000,55000,60000,65000],

BoughtInsurance:[0,0,0,0,1,1,1,1,1]

})

#划分特征和标签

X=data[[Age,Income]]

y=data[BoughtInsurance]

#划分训练集和测试集

X_train

您可能关注的文档

文档评论(0)

kkzhujl + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档