- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
深度学习中的数据处理
现在将⼀些有关数据处理的库函数以及⽤法总结如下,希望能对以后有所帮助。
作为深度学习的第⼀步,⼀定是要将各种各样的数据从本地或者云端导⼊到我们的模型中,所以数据的处理⼀定是很重要的⼀部分。这⾥⾸
先将numpy库中的⼀些有关函数总结如下,之后会补充基于paddlepaddle框架下的数据处理知识。
⼀、理论部分
简单来说数据的预处理需要经过以下⼏个步骤,数据载⼊,数据分割和数据归⼀化,本博⽂会以“波⼠顿房价预测”为例,梳理⼀遍数据处
理的整体思路,并会将所⽤到的函数在后补充相关⽤法。
⾸先我们⽤记事本打开这个数据⽂件,看看这个数据⽂件⾥⾯的内容到底是什么。打开之后我们会发现它是由⼗四列数据组成的。
这⼗四列分别是评价波⼠顿房价的估计参数(具体可以从⽹上找到这⾥不再赘述),因此我们⾸先需要把本地的⽂件导⼊到我们的编辑器
中,这时候我们就需要使⽤⼀些函数来帮助我们完成操作。
1.数据载⼊
这次我们选择fromfile()对数据进⾏读取,读取之后我们对数据打印看看是什么样⼦的。
importnumpyasnp
importjson
#读⼊训练数据
datafile=rr
data=np.fromfile(datafile,sep=)
print(data)
print(type(data))
print(np.shape(data))
np.savetxt(rr,data)
打印读取的结果如下,
发现
他是⼀个有7084⾏的⼀个数组,把数据保存到记事本⾥可以看到他的排列如下图所⽰。
通过fromfile把我们的数据成功进⾏载
⼊,经过这个函数我们发现他把所有的数据都装载进了⼀列,组成了⼀个⼀维数组,显然这样的格式显然是不利于我们进⾏进⼀步操作的,
于是我们应该对数据进⾏整形,⽅便我们的进⼀步处理。
数据原本是由13个参数和⼀个结果构成,那我们需要把这7084个⾏,按照它本来的顺序进⾏转化,将其整形为[N,14]的⼆维数组。这样
我们就可以根据不同的参数获取相应的结果。同时我们将每⼀组的参数名称作为index对数据进⾏划分。
feature_names=[CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,
RAD,TAX,PTRATIO,B,LSTAT,MEDV]
feature_num=len(feature_names)
data=data.reshape([data.shape[0]//feature_num,feature_num])
print(data)
np.savetxt(rr⼩郭哥⼩郭哥,data)
可以得到如下结果,发现已经按照我们的需求把不同参数所对应的数据进⾏分开。
这时候我们就完成了数据预处理的第⼀步,对数据的载⼊。
2、数据分割
为了对我们训练出来的参数进⾏验证,因此我们需要把数据集划分成训练集和测试集,通过训练集对参数的⼤⼩进⾏训练,通过测试集对参
数的准确性进⾏确认。在这⾥我们通过排列顺序,将数据集按照百分之⼋⼗分给训练集,百分之⼆⼗给测试集的⽅式进⾏划分。
x=data
print(x.shape[0])
⼀共有份数据,提取百分之⼋⼗作为训练集
#506--404
ratio=0.8
offset=int(data.shape[0]*ratio)
training_data=data[:offset]
test_data=data[offset:]
print(training_data.shape)
文档评论(0)