- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第4章 Logistic回归
学习目标理解Logistic回归的基本原理掌握利用Scikit-learn库进行Logistic回归的基本方法掌握Scikit-learn库Logistic回归模块常用参数、属性与方法的使用123
目录页4.1基本原理4.2应用实例Logistic回归
4.1基本原理线性回归主要研究因变量(与待求解问题相关取值)和自变量(与待求解问题相关的特征)之间是否存在线性关系的问题。事实上,因变量与自变量之间的线性关系仅是为简化问题复杂度所做的假设或为求解复杂模型的初始探测,因而,线性回归在实际中不但不易获得较好的效果,而且不易直接应用于分类问题的求解或应用于分类问题求解时易导致不可靠的结果。
4.1.1基本概念针对线性回归存在的问题,一个直接的解决方法是对因变量进行非线性映射以使其取值具有特定的含义;Logistic回归即是在线性回归的基础上通过Sigmoid函数变换而构成的分类方法。Sigmoid函数
4.1.1基本概念?
4.1.2数学模型与求解?
4.1.2数学模型与求解?
4.1.2数学模型与求解?
4.1.2数学模型与求解?
4.2应用实例Scikit-learn库包含Logistic回归模块及相关数据集线性回归模块的引入方式:fromsklearn.linear_modelimportLogisticRegression函数原型:LogisticRegression(penalty=l2,dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver=liblinear,max_iter=100,multi_class=ovr,verbose=0,warm_start=False,n_jobs=1)
4.2.1分类可视化Logistic回归分析算法主要用于解决两类样本分类问题,当相关样本包含两个特征时,两类样本之间的分类边界实为二维坐标系下的一条直线;对样本与分类边界进行可视化有利于理解Logistic回归分析原理与性能。(1)问题描述首先构造特征数量及类别数据均为2的仿真数据,然后利用Logistic回归模型实现样本的预测与两类样本分类界线的可视化(2)编程实现见4.2.1分类可视化.py
4.2.1分类可视化(3)结果分析以上代码运行结果如下。预测精度:0.94
4.2.2鸢尾花识别根据植物的特征对其所属类别进行识别有助于提高人们对植物的认识或辅助研究者对植物特征及其类别之间的相关性进行分析。(1)问题描述Scikit-learn库中的鸢尾花数据集包含三种类别,选择前两类并利用Logistic回归算法完成以下实验:①对鸢尾花样本进行分类并求取相应模型的精度。②对比L1正则化与L2正则化在C值为0.02时模型参数变化及预测精度。(2)编程实现见4.2.2鸢尾花识别.py
4.2.2鸢尾花识别(3)运行结果数据基本信息:(100,4);Class_1:50;Class_2:50特征名称:[sepallength(cm),sepalwidth(cm),petallength(cm),petalwidth(cm)]前10个样本的预测概率:[[00[00[00[00[00[00[00[00[00[00]前10个样本的预测概率:[0101110111]前10个样本的预测精度:1.0L1正则化系数:[[0.0.00.]]非零L1正则化系数:[1]L2正则化系数:[[-0-000.2397033]]非零L2正则化系数:[4]
4.2.2鸢尾花识别(3)运行结果Logistic回归算法既可用于两类分类问题的求解,也可用于预测事件发生的概率;在此例中,其预测了样本所属两类别的概率并从中选择最大者作为最终预测的类别,精度较高。L1与L2正则化相应的精度对比
4.2.3乳腺癌预测(1
文档评论(0)