Python大数据基础全套教学课件.pptx

  1. 1、本文档共539页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;大数据基础 Python基础 数据获取—爬虫 数据存储—Python读写文件及数据库 数据预处理—Python处理异常数据 数据挖掘—使用scikit-learn进行数据挖掘 数据可视化—使用matplotlib进行数据可视化 ;海量数据的产生;数据的摩尔定律;大数据处理流程;数据是大数据处理的基础。数据来源包括公开数据库,传感器,Web和其他业务数据。 在数据收集过程中,数据源的数据质量和采集频度会影响大数据到质量,包括数据真实性、完整性、一致性和准确性。 传感器数据: 结合传感器提供的API,定期读取其内容并存入指定数据库或文件中。 用户行为日志:通过正则表达式分析(re模块)区分日志的特征并抓取有价值日志进行保存 Web数据:爬虫方式采集。使用urllib等库获取页面内容,通过Beautifulsoap库可以解析HTML页面的内容并获得指定的数据。;在?很多大数据处理的应用中,数据都是在文件或数据库中保存的。大数据处理的中间结果也需要保存在持久化的存储中。对数据的读写操作是计算机处理的基础。 文本文件读写 二进制文件(带格式)读写 数据库增删改查 对象持久化;大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性。 包括数据清理、数据集成、数据归约与数据转换等 数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量; 数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等,这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量; 数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,即提高大数据存储的价值。 数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一,这一过程有利于提高大数据的一致性和可用性。;大数据的分布式处理技术与存储形式、业务数据类型等相关,针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。 大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。 聚类与分类、关联分析、深度学习等,可挖掘大数据集合中的数据关联性,形成对事物的描述模式或属性规则,可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。;数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息,以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性,便于用户理解与使用,数据可视化是大数据可用性和易于理解性质量的关键因素。;Python大数据相关知识点;Python(中文发音为派森,原意为蟒蛇,因此其图标为两只蟒蛇)是一门高级程序开发语言。 所谓“高级程序开发语言”,是相对于“低级程序开发语言”来说的。 Python的语法接近正常的英语语法,因此即使不会编程,只要懂得基本的英语(词汇量不到100),也可以大致看懂Python代码。;通过这一章的学习,你将会掌握如下知识。 (1)Python开发环境的搭建。 (2)Python的基本知识、数据类型。 (3)Python的条件语句和循环语句。 (4)Python函数的定义和使用。 (5)基于Python的面向对象编程代码。 ? ;由于历史原因,Python有两个主要的大版本:Python 2与Python 3。这两个大版本同时在往各自的方向发展。绝大多数的Python代码在这两个大版本中可以通用,但也有少数代码只能在Python 2中运行,或者只能在Python 3中运行。 Python官方曾经宣布,在今后的发展中,Python 3 的升级会增加新功能,而Python 2的升级只会做错误修正,不会增加新的功能。 Python之父吉多·范罗苏姆(Guido van Rossum)建议使用Python 3,并逐步淘汰Python 2。Python官方推特宣布,在2020年停止维护Python 2。本书所有代码基于Python 3开发。 截至2019年6月,Python 2正式版的必威体育精装版版本为Python 2.7.16,Python 3正式版的必威体育精装版版本为 Python 3.7.3。 ;Python的官方网站界面如图2-1所示。 ;使用Windows 操作系统的读者,可访问/ ftp/python/3.

您可能关注的文档

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档