Python金融数据分析与挖掘(微课版) 课件 3-5.常用计算任务.pptx

Python金融数据分析与挖掘(微课版) 课件 3-5.常用计算任务.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章数据处理包Pandas滚动计算、时间元素提取映射与离散化分组统计

滚动计算第3章滚动计算,也称为移动计算,给定一个数据序列,按指定的前移长度进行统计计算,比如求和、平均值、最大值、最小值、中位数、方差、标准差等。这里前移长度的计算,包含自身,如果待计算的数据序列小于指定的前移长度,则无法计算,用空值“nan”来表示。简单调用形式为:S.rolling(N).统计函数,其中S表示序列,N表示指定的前移长度importpandasaspdlist_data=[10,4,3,8,15,26,17,80,12,5]series_data=pd.Series(list_data)rolling_sum=series_data.rolling(5).sum()rolling_mean=series_data.rolling(5).mean()rolling_max=series_data.rolling(5).max()rolling_min=series_data.rolling(5).min()rolling_median=series_data.rolling(5).median()rolling_var=series_data.rolling(5).var()

时间元素提取第3章对时间格式的序列数据,提取包括年份、月份、周数、日期、小时、分钟、秒、星期几等时间元素。importpandasaspddata=pd.read_excel(dat.xlsx)这里“刷卡时间”数据格式为字符串

时间元素提取第3章对时间格式的序列数据,提取包括年份、月份、周数、日期、小时、分钟、秒、星期几等时间元素。importpandasaspddata=pd.read_excel(dat.xlsx)data[刷卡时间]=pd.to_datetime(data.iloc[:,1],format=%Y-%m-%d%H:%M:%S.%)这里“刷卡时间”数据格式为时间格式

时间元素提取第3章data[year]=data[刷卡时间].dt.yeardata[month]=data[刷卡时间].dt.monthdata[day]=data[刷卡时间].dt.daydata[hour]=data[刷卡时间].dt.hourdata[minute]=data[刷卡时间].dt.minutedata[second]=data[刷卡时间].dt.seconddata[week]=data[刷卡时间].dt.isocalendar().weekdata[weekday]=data[刷卡时间].dt.weekday将字符串类型的时间序列转化为时间戳类型。时间元素提取形式式为:“时间戳类型序列.dt.时间元素”,返回的结果依然是序列

映射第3章序列中的映射方法,简单的调用形式为:序列.map(映射参数),其中映射参数一般为字典类型,格式如:{原值1:映射值1,原值2:映射值2,...}。dict_map={进站:1,出站:0}data[刷卡类型]=data[刷卡类型].map(dict_map)

离散化第3章data1=data.iloc[data[刷卡类型].values==1,[0,5,6]]#取刷卡类型、hour、minute列data1_hour=data1.groupby(hour)[刷卡类型].sum()#按hour分组,对刷卡类型列求和

离散化第3章bins=[0,100,500,1000]dt1=pd.cut(data1_hour,bins)dt2=pd.cut(data1_hour,bins,labels=[0,1,2])dt_cut=pd.DataFrame({c1:data1_hour.values,c2:dt1.values,c3:dt2.values})dt_cut.index=data1_hour.index数据分割,即离散化,可以使用pandas库中的cut函数来实现,其简单调用形式为:pd.cut(S,bins)或pd.cut(S,bins,labels),其中S为数据序列,bins为分割区间列表,labels为分割区间的类别表示列表

分组统计第3章姓名日期消费类型消费额张明2018-01旅游200张明2018-01餐饮300张明2018-01服装300张明2018-02旅游100张明2018-02餐饮250张明2018-02服装250李红2018-01旅游50李红2018-01餐饮200李红2018-01服装400李红2018-02旅游100李红2018-02餐饮250李红2018-02服装500王周2018-01旅游500王周2018-01餐饮200王周2018-01服装100王周2018-

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档