- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Python是一种面向对象、直译式计算机程序设计语言,由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。
由于Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。
一、为什么要用Python做数据分析?在我看来,大概有3大理由。
广度:各行各业都有自己的商业场景,每一个行业都需要使用数据来辅助决策。面对现在人人谈大数据的情境,数据分析是一个你不得不会的技能。
精度 :Python是一门编程语言。也许从前的你完全依靠excel的默认设置生成图表,从不思考为什么做一张数据图,而使用编程工具的你必须从图表长宽开始思考每一步成形的理由,从而更精地理解数据。
高效 :传统的数据工作涵盖大量的重复不动脑操作,比如把日表合成周表,比如批量删除某个字段,比如批量删除空值。这些工作通过鼠标点击软件没有办法编成工作流,但却可以通过python程序编写自动化,省去大量时间。
基础库总结
这里是对你会经常接触的重要的库的简要总结:
NumPy:拥有大量的科学计算的核心功能。由于它的内部运算是通过C语言实现的,所以比用Python写成的同样的函数,它的速度会快许多。但它并不是最用户友好的包。
SciPy:跟NumPy非常相似,但是有更多的方式来从分布中取样,计算检验统计量,等等。
MatPlotLib:主要的画图框架。不太讨喜,但却是必备的包。
Pandas:基本上是对NumPy/SciPy进行轻量的包装,使它们更用户友好一些。对于和表格数据交互非常理想,Pandas中把表格数据称为数据框(DataFrame)。对画图功能也有一些包装,使得无需使用MPL(Meta-Programming Library,元编程库)就可以快速实现画图。我使用Pandas而非其他的工具来操作数据。
机器学习和计算机视觉
Crab:灵活、快速的推荐引擎
gensim:人性化的话题建模库
hebel:GPU 加速的深度学习库
NuPIC:智能计算 Numenta 平台
pattern:Python 网络挖掘模块
PyBrain:另一个 Python 机器学习库
Pylearn2:一个基于 Theano 的机器学习库
python-recsys:一个用来实现推荐系统的 Python 库
scikit-learn:基于 SciPy 构建的机器学习 Python 模块
pydeep:Python 深度学习库
vowpalporpoise:轻量级 Vowpal Wabbit 的 Python 封装
skflow:一个 TensorFlow 的简化接口(模仿 scikit-learn)
Caffe: 一个 Caffe 的python接口
OpenCV:开源计算机视觉库
pyocr:Tesseract 和 Cuneiform 的包装库
pytesseract:Google Tesseract OCR 的另一包装库
SimpleCV:一个用来创建计算机视觉应用的开源框架
上面列举的只是其中一部分,还有很多很多。当然,他们很多并非是用Python来实现,但都共同的提供了Python接口,甚至好几个都把Python当成了头等公民(First-Class)。在此并非想说Python这门语言很强大或者复杂,而恰恰相反,得益于Python的简洁和包容。才让它在数据挖掘领域有如此的地位。
二、Python数据分析流程
1、数据获取:公开数据、Python爬虫
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
常用的的电商网站、问答网站、二手交易网站、婚恋网站、招聘网站等,都可以爬到非常有价值的数据。
Python具有灵活易用,方便读写的特点,其可以非常方便地调用数据库和本地的数据,同时,Python也是当下网络爬虫的首选工具。
Scrapy
Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
2、数据整理
NumPy(Numeric Python)
提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组
您可能关注的文档
- C语言程序设计练习题4.docx
- C语言程序设计练习题5.docx
- C语言程序设计练习题7.doc
- C语言程序设计练习题8.doc
- 《C语言程序设计》期末试卷及答案2套.doc
- 《C语言程序设计》习题及答案、上机指导及答案.doc
- 《Linux操作系统》实训大纲和指导书.docx
- 《Linux操作系统》教学大纲.doc
- Linux就该这么学介绍.docx
- 《Linux操作系统》课后习题1章.docx
- 高质量发展背景下少数民族地区夜间经济品牌建设策略研究.docx
- 人教版新教材(2024)七年级地理下册第七章《我们生活的大洲--亚洲》每课时分层检测汇编(含3课时).docx
- 人教版新教材(2024)七年级地理下册第九章第一节《西亚》分层检测(第2课时).docx
- 人教版新教材(2024)七年级地理下册第九章《东半球其他的地区和国家》每课时分层检测汇编(含8套检测题).docx
- 人教版新教材(2024)七年级地理下册第九章第一节《西亚》分层检测(含两课时).docx
- 门店利润管理ppt.pptx
- 某酒店集团简介及物业选址要求讲义课件.pptx
- 降钙素原 PCT 的临床意义.ppt
- 糖尿病的药物治疗胰岛素及其类似物临床应用上课用1.ppt
- 汽车四轮定位详细图解.ppt
最近下载
- GIS空间分析理与方法.doc
- Q_GDW 1140-2014 交流采样测量装置运行检验规程.PDF
- (高清版)B/T 42762-2023 杯壶类产品通用技术要求.pdf VIP
- 贵州职业院校技能大赛高职组(手工制茶赛项)参考试题库(含答案).docx
- 广发证券在线测评题.pdf
- 最简单的采购合同范本.docx
- TCPPIA 41-2024 农业用功能性聚烯陉涂覆棚膜.pdf
- T_ZJATA 0016-2023 化学实验反应风险评估与预防技术规范.docx VIP
- 人教版(2024年新版)二年级数学下册全册教案(含课后反思).pdf VIP
- 2025年中央一号文件全文重点PPT课件.ppt VIP
文档评论(0)