- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
阿里音乐流行趋势预测可视化分析与设计
工程介绍工程数据研究方向研究思路
工程介绍经过7年的开展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活泼在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。该工程以阿里音乐用户的历史播放数据为根底,期望可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,实现对一个时间段内音乐流行趋势的准确把控。
一行记录某个艺人在某日发行某首歌曲的根本信息,其中包括该收歌曲的专辑收录时间,初始播放量,歌唱语言以及歌唱者的性别组成工程数据歌曲艺人表(Mars_tianchi_songs)列名类型说明例如Song_idArtist_idPublishtimeSong_init_playsLanguageGenderStringStringStringStringStringString歌曲唯一标识歌曲所属艺人ID歌曲发行日期,精确到天歌曲初始播放量,表明该歌曲的初始热度数字表示1,2,3…数字表示1,2,3c81f84g8t35ds7489512sd8io6522bv5sg2016032501001列名类型说明示例User_idSong_idGmt_createAction__typeDsStringStringStringStringString用户唯一标识歌曲唯一标识用户播放时间(Unix时间戳表示)行为类型:1.播放;2.下载;3.收藏记录收集日(分区)7063dkg4g8t3s79ashxw46io62bv5sg1426406400120160515用户行为表(Mars_tianchi_user_action)用户行为表:一行记录某个用户某日对某首歌曲的操作,包括:播放,下载,收藏
研究方向预测艺人随后两个月的播放数据预测未来两个月播放量的周期规律分类不同类艺人时间序列趋势走向用户行为语言艺人ID用户播放时间性别记录收集日用户行为用户行为
研究思路??!01预处理StepOne02提取特征并筛选StepTwo03模型StepThree04预测StepFour
Researchideas01预处理StepOne
3σ准那么:它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。3σ原那么为:数值分布在〔μ-σ,μ+σ)中的概率为0.6826
数值分布在〔μ-2σ,μ+2σ)中的概率为0.9544
数值分布在〔μ-3σ,μ+3σ)中的概率为0.9974
因为艺人和用户数据是随机抽样,且数据量较大,大局部艺人时间序列符合正态分布的密度曲线.预处理
Researchideas02提取特征并筛选StepTwo
我们就按照2倍标准差(SD)的方法粗略的剔除数据。提取特征并筛选简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大局部的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
Researchideas03建立模型StepThree
建模方法:1.规那么2.单独线性回归3.单独时间序列4.线性回归+〔残差〕时间序列AR模型建立模型建模初期,根据规律,用距离预测时间较近的时间段作为预测值比较准确。
Researchideas04预测StepFour
单点预测方法:以最后一天8月30日播放量,8月最后一周,8月下半月,8月以及7月8月的中值和均值日播放量作为预测结果。预测多点预测方法:线性回归模型,时间序列模型
团队成员:周晨霞张名扬朱麒斌郑兴豪ThanksForYourWatching!
文档评论(0)