网站大量收购独家精品文档,联系QQ:2885784924

互联网大数据分析之《用户画像分析》.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可以看看的几个网站 统计专业网站: UCD大社区: / Alexa中文官方网站:/ 淘宝用户体验设计: Excel Home: 图研所:/ BAIDU.com 人群—— XX.com人群—— GOOGLE人群—— 星座与气质用户画像 品牌画像——颜色维度 甲壳虫乐队发型变化图表 可以读读的几本书 ¥30.96 ¥88.00 ¥45.00 ¥28.00 收集数据的十个原则 一、思考研究问题之初,也要开始思考回答问题需要收集的数据类型。 二、在思考数据类型的时候,也要思考从何处获得数据。 三、保证你用于收集数据的表格简单容易。 四、始终记得对数据文件进行备份,并存储在不同地方。已经丢失即将丢失。 五、不要依赖他人收集或转换数据。 六、计划详细的何时何收集数据的日程表 七、只要有可能,就为你的项目培育可能的数据来源。 八、尽力追踪遗漏了的测试或者访谈对象。 九、永远不要销毁你的原始数据。 内部资料, 请勿外传 谢 谢 ! 注意信息安全,内部资料,请勿外传 * 内部资料, 请勿外传 内部参考 知识回顾Knowledge Review 用户画像流程 研究 目的 确定目标用户 用户 抽样 数据 整理 数据整理统计挖掘 结论 展示 * 提取用户 抽样的几个概念 是所要研究的对象的全体。例如,考察XX农场用户体验,目标总体就是所有的XX农场的用户。抽样总体是用于从中抽取样本的总体。 总体 Population 从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。 抽样 Sample 在抽样之前,总体应划分成抽样单位,抽样单位互不重叠且能合成总体,总体中的每个个体只属于一个单位。抽样框是一份包含所有抽样单元的名单。 抽样框 抽样过程 定义总体(母体) 确定抽样框 确定抽样方法 决定样本量 实施抽样计划 抽样与数据收集 回顾抽样过程 抽样方法 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。 简单随机抽样 simple random sampling 等距抽样。将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。这种方法操作简便,可提高估计的精度。 系统抽样 systematic sampling 将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。 分层抽样 stratified sampling 将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差 整群抽样 cluster sampling 抽样效度与信度 分半信度 将同一批用户随机分成两组,计算关键指标的占比、相关系数。 复本信度 同一总体中随机抽取多个样本进行比较 内部一致系数 同质 一个教师的话 我不止一次给我的市场调研课学生说过,你们利用人人网之类做问卷调查基本是无效的,当个作业也就算了。 你们心里要明白,所谓物以类聚人以群分,利用社交网络的link做出来的问卷,没有随机性可言。包括你在msn、XX之类上传问卷给朋友请他们帮忙。缺乏随机性的样本,那就没有代表性。就好像小区的人,无法代表全体市民,你的朋友,无法代表全体学生。 摘自:魏武辉的BLOG / 数据整理 数据整理 极端值处理;心理学研究把超过2个标准差之外的值剔除。 数据检查 没有观测到 有明显错误 缺失值处理 例如:年龄分段、选择处理等 数据分组 数据检查——用户选择 用户年龄取值范围:9岁—41岁 用户年龄占比分布 年龄 占比 年龄 占比 年龄 占比 年龄 占比 6 0.07% 16 0.89% 26 6.20% 36 0.77% 7 0.06% 17 1.53% 27 5.18% 37 0.73% 8 0.05% 18 2.56% 28 4.90% 38 0.62% 9 0.06% 19 4.45% 29 3.36% 39 0.56% 10 0.12% 20 7.37% 30 2.89% 40 0.68% 11 0.10% 21 9.19% 31 2.16% 41 0.41% 12 0.10% 22 9.59% 32 1.78% 42 0.36% 13 0

文档评论(0)

文档分享 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档