【移动互联网必读】手机上的大数据四手机上的音乐.doc

【移动互联网必读】手机上的大数据四手机上的音乐.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【移动互联网必读】手机上的大数据四手机上的音乐

【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。 互联网的一些事   无线音乐是用户利用手机等通信终端,以WAP、WEB、APP等接入方式获取以音乐为主题内容的相关业务的总称,具体包括彩铃、无线音乐俱乐部、及手机客户端软件等业务。可以说在智能手机时代,手机客户端音乐逐渐成为用户享受生活的主要方式。   随着智能手机的不断普及,无线音乐行业成就了一些大头手机音乐客户端公司,这些公司拥有着上百万甚至千万级别规模的用户群体。   手机客户端音乐的不断发展及用户群体的不断壮大,随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余,但却隐藏着很多的秘密。如果能有效地对这些数据进行组织管理,并且利用相关技术进行挖掘、分析,少则可以揭示一个公司一次决策实施后的效果,发现公司现有存在的重大问题,多则发现潜在的高价值业务或需求,这些业务或需求很有可能为公司的发展提供战略性指导意见。   下面以国内某著名手机客户端音乐公司的无线音乐数据为例,我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。   发现问题   通过对该数据进行分析挖掘,我们发现如下几个问题。i   (1) 用户、歌曲均存在长尾效应   从数据中我们发现用户有两种行为,一种是下载、一种是试听, 互联网的一些事   每种行为中,我们发现用户和歌曲均存在“长尾现象”,绝大部分用户只试听或下载系统中的少部分歌曲,而大部分歌曲出于闲置状态。具体信息如下图 一些事   音乐的长尾问题   说明:图中左子图横坐标表示用户的听歌,纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过,纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是:数据量大,信息过载严重用户找不到自己喜欢的歌曲。   此时大多数用户直接转向流行榜或热歌榜歌曲,就会造成系统中热门歌曲越热门,冷门歌曲越冷门的现象。   (2) 歌曲覆盖率低   从数据中我们还发现歌曲的覆盖率很低,在整个抽样数据中歌曲   覆盖率只有2.01%。绝大部门歌曲根本没有被用户听过或者下载过,这不仅造成系统资源的大量浪费,而且造成公司资金的无辜流失(因为每首歌曲都要付版权费,而系统中98%的歌曲处于浪费状态)。歌曲的覆盖率累计分布如下如图。   歌曲覆盖率图   说明:图中横坐标表示歌曲的被听歌人数(去重),纵坐标是不小于这个数目的歌曲所占的比例。   造成这方面的原因可能是:大量歌曲处于冷启动状态,数据稀疏。作为冷启动作曲,系统不知道如何把他推送到适当的用户手里,而用户也不能通过有效方式找到他,就使得这类歌曲处理系统的暗处,不容易被发现。   (3) 用户每天听歌时间呈间断性分布 互联网的一些事   在给定的样本数据中,我们发现用户听歌行为并不是均匀分布,而是间断性分布,即在不同的时间用户听歌集中度不同。为了更好的看出效果,我们将一天分为8个时间段,每个时间段包括3个小时,在每个时间段内用户听歌活跃性如下图。   用户活跃时间图   说明:图中横坐标表示时间段,纵坐标是该时间段内用户的活跃性比。   造成这方面的原因可能是: 下班、休息、乏困疲惫时间   用户在无限端听歌的模式还是倾向于休闲与娱乐,主要是以休息碎片时间为主。   (4) 不同用户对歌曲的属性依赖性不同   在样本数据中,歌曲有专辑与歌手两种属性。我们从用户的长程关联显著性、短程关联显著性等方面对用户的听歌行为进行分析,分析具体结果如下表:   说明:图中Strong null model、Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值,所有歌曲之间的相似性值,相邻播放之间相似性值。Album表示专辑,Artist表示歌手。造成这方面的原因可能是: 与专辑相比用户倾向于听同一个歌手的歌曲   (5) 不同用户听歌行为不同   从数据中我们分析还得出,不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。 yixieshi   具体信息如下图   歌曲的三个维度分析   说明:图中横坐标表示用户的活跃性值,纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值   造成这方面的原因可能是: 用户可能呈分群现象 一些事   活跃性较低的用户可能是普通用户,这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户,这类用户根据自己的专业需要来选择自己想听的歌曲。   解决方案   从上面一小节的讨论中,我们已经知道无线音乐端大数据中可能隐藏的几个问

文档评论(0)

fds373ix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档