网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx

《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

处理农产品基本信息数据农产品信息可视化分析——NumPy、pandas与Matplotlib库

任务描述水稻是全球最重要的粮食作物之一,水稻审定数据可以为农业科技创新提供重要的参考和依据,可以帮助选择高产、优质、抗逆性强的水稻品种,促进绿色、可持续的农业生产方式,有助于推动农业的可持续发展。处理农产品基本信息数据本任务先了解水稻信息数据的情况,根据数据检测的内容可知数据存在缺失值、重复值、异常值的情况,并对数据中的缺失值、重复值、异常值进行处理,增强后续数据分析的效果。对数据进行仔细的处理和清洗,确保数据的质量可靠,为后续的数据分析和决策提供更可信的基础,也展现了劳动精神的价值和应用。

任务要求读取农产品基本信息数据。检测数据缺失值的情况,并进行缺失值处理。检测数据异常值的情况,并进行异常值处理。检测数据重复值的情况,并进行重复值处理。处理农产品基本信息数据

数据读取与写入pandas数据结构pandas数据处理

pandas数据处理pandas是一款用于数据处理和分析的Python,提供了强大的数据结构和函数,用于清洗、转换、分析和可视化数据。核心数据结构是DataFrame,类似于Excel表格。pandas提供了丰富的数据清洗、数据合并和分组聚合等功能。数据清洗包含了重复值处理、缺失值处理、异常值处理等操作。处理农产品基本信息数据

数据清洗重复值处理农产品基本信息数据处理重复数据是数据分析经常面对的问题之一。对重复数据进行处理前,需要分析重复数据产生的原因以及去除这部分数据后可能造成的不良影响。pandas提供了drop_duplicates()方法可用于去重,使用该方法进行去重不会改变数据原始排列,并且兼具代码简洁和运行稳定的特点。

数据清洗处理农产品基本信息数据drop_duplicates()方法的基本使用格式如下。pandas.DataFrame.drop_duplicates(subset=None,keep=first,inplace=False,ignore_index=False)

数据清洗处理农产品基本信息数据ignore_index接收bool。表示是否忽略索引。默认为False参数名称参数说明subset接收str或sequence。表示进行去重的列。默认为Nonekeep接收特定str。表示重复时保留第几个数据,“first”表示保留第一个;“last”表示保留最后一个;False表示只要有重复都不保留。默认为firstinplace接收bool。表示是否在原表上进行操作。默认为Falsedrop_dupilicates()方法的常用参数及其说明如下。

数据清洗缺失值处理农产品基本信息数据缺失值处理方法概念识别方法在数据中的某个或某些特征的值是不完整的,这些值称为缺失值识别缺失值的isnull()方法以及识别非缺失值的notnull()方法,均返回布尔值删除法与替换法

数据清洗处理农产品基本信息数据删除法是指将含有缺失值的特征或记录删除。删除法分为删除观测记录和删除特征两种,它属于通过减少样本量来换取信息完整度的一种方法,是一种较为简单的缺失值处理方法。pandas中提供了dropna()方法可简便的删除缺失值,通过设置参数,既可以删除观测记录,又可以删除特征。基本使用格式如下。pandas.DataFrame.dropna(axis=0,how=any,thresh=None,subset=None,inplace=False)

数据清洗处理农产品基本信息数据inplace接收bool。表示是否在原表上进行操作。默认为False参数名称参数说明axis接收0或1。表示轴向,0为删除观测记录(行),1为删除特征(列)。默认为0subset接收array。表示进行去重的列/行。默认为Nonehow接收特定str。表示删除的形式,当取值为any时,表示只要有缺失值存在就执行删除操作;当取值为all时,表示当且仅当全部为缺失值时才执行删除操作。默认为anydropna()方法的常用参数及其说明如下。

数据清洗处理农产品基本信息数据替换法是指用一个特定的值替换缺失值。特征可分为数值型和类别型,当缺失值所在特征为数值型时,通常利用其均值、中位数或众数等描述其集中趋势的统计量来代替缺失值;pandas库中提供了fillna()方法可用于缺失值替换,其基本使用格式如下。pandas.DataFrame.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None)

数据清洗处理农产品基本信息情况inplace接收bool。表示是否在原表上进行操作。默认为False参数名称参数说明valu

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档