- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析 第七章 数据格式与编码技术 本章学习目标 了解文件格式的概念 了解常见的的文件格式及分类特征 了解数据的各种类型 了解数据编码的特征 了解并掌握数据转换的方式 7.1 文件格式概述 文件格式是指在计算机中为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。 每一种文件都要使用有特定的软件来打开,例如在Windows系统中想使用记事本来打开图像文件,就会出现乱码的现象。 使用Python读取Windows系统中的文本数据 with open(8.26.txt)as file_object: contents=file_object.read() print(contents) 目前常见的文本格式较多,主要分为在Windows下的文本格式和在Linux下的文本格式。 1)txt格式 2)doc格式 3)xls格式 4)pdf格式 5)XML格式 6)JSON格式 7)HTML格式 8)tar格式 9)dmg格式 10)py格式 图像文件格式是记录和存储影像信息的格式,对数字图像进行存储、处理必须采用一定的图像格式,图像文件格式决定了应该在文件中存放何种类型的信息。 音频与视频格式主要用于存储计算机中的音频与视频文件。 7.2 数据类型与编码 数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据,以便于程序的运行。通常可以根据数据类型的特点将数据划分为不同的类型,如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。 常见的数据类型主要包含有:数值型、日期型、时间性、字符串型、逻辑型以及文本型。 编程语言中的数据类型 1)Java中的数据类型 2)Python中的数据类型 3)MySQL中的数据类型 字符编码 在计算机中,所有的信息都是0/1组合的二进制序列,计算机是无法直接识别和存储字符的。因此,字符必须经过编码才能被计算机处理。 字符编码是计算机技术的基础,也是大数据清洗需要的基本功之一。 (1)ASCII码 (2)GB2312编码 (3)Unicode编码 乱码与空值 (1)乱码 (2)空值 数据转换 数据间的相互转换是大数据清洗工作中不可缺少的一部分。由于文件在不同的文件系统中有着不同的存储格式,因此人们希望能够文件类别上实现其自由的转换。 1)基于SQL数据库文件的转换 2)基于编程语言的转换 3)基于文件的转换 7.3 Kettle数据清洗与转换工具的使用 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。?该软件的中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 7.4 CSV格式的数据转换 CSV(逗号分隔值文件格式),也叫作字符分隔值。CSV文件一般以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。 CSV是一种通用的,相对简单的文件格式,在商业上应用较为广泛。CSV格式的基本规则如下: 纯文本格式,并通过单一的编码来表示字符。 以行为单位,开头部留空行,行与行之间没有空行。 每一行表示一个一维数据。 主要以以半角逗号作为分隔符,列为空也要表达其存在。 对于表格数据,可以包含列名,也可以不包含列名。 【例7-3】使用Python生成CSV文件,代码如下。 import csv with open(test.csv, w) as f: writer = csv.writer(f) # 写入表头,表头是单行数据 writer.writerow([name, age, sex]) data = [ (huangyuan, 20, male), (zhanglan, 22, female) ] # 写入这些多行数据 writer.writerows(data) 【例7-5】使用Python读取CSV文件,代码如下。 import csv with open(20187-5.csv,r) as csvfile: reader = csv.reader(csvfile) #这里不需要readlines for line in reader: print (line
您可能关注的文档
最近下载
- 1-16006(15-335)攀枝花煤业(集团)有限公司大宝顶矿720AWD3采煤机用户图册PM6.pdf
- 231页PPT数字城市综合管理服务平台建设方案.pptx VIP
- 北师大版五年级数学上册第二单元《轴对称和平移》(大单元教学设计).docx VIP
- 检验批划分方案(正式版).docx VIP
- 以二十四节气为基础的文创产品的设计与开发.docx
- 2.2 抒情与写意——文人画 课件-高中美术人美版(2019)美术鉴赏.pptx
- 党课课件单位负责人领导述职述廉报告各级党员干部述职述廉报告党课.ppt VIP
- 整合生活方式干预模式用于缓解初产妇疼痛.pptx
- 拼多多新商家店铺能力认证考试答案题库-高级经营能力认证-店铺管理+商品管理+订单管理.docx
- 2024年健康驿站方案.docx VIP
文档评论(0)