- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
What ? – 要作什么事 对每个宽带用户的每次浏览网页行为进行记录,在海量的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的“画像”。 按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分。 依托运营商平台,利用网络广告、直投、个性化内容推送等手段对宽带用户进行“一对一”的精准营销。 What 图解 What 图解 – 续 Why ? - 为网通带来新价值 精准广告收入 合作模式:与网络广告商、传统广告商、SP、广告联盟分成 ? 精准的用户属性将大幅度提高广告的价值,让每一次Page View都变成金子 自营模式:个性化内容推送 [例子: “一对一”的个性化号百和12580 ] ? 想用户所想,急用户所急 直销(DM)分成收入:与最终厂商合作 提升ARPU值,快速拓展新用户 采用精准的营销策略带动用户升速 ?分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP会吸引升速用户? 通过DM捆绑销售和优惠的接入价格快速拓展新用户 ? 在新竞争格局中领先一步,形成良性的循环:更低的接入价格带来更多的用户,获得更多的增值业务收入 How ? – HyperCloud解决方案 技术架构 核心处理算法 演示 ROI分析 低成本和可靠的海量存储子系统 多级别存储,成本降到300$/TB 无需RAID支持,保证99.9%可用性 多元数据服务器,管理亿级数量文件 可在线扩展至PB级规模 平滑可扩展的分布式运算子系统 3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化 Key-Value Query with Memory Cache 突破Key-Value Query的瓶颈,单点上亿条规模Key-Value对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz Range Query with Memory Database 列存储(Column-based)结构,突破Range Query的瓶颈,单点上亿条记录的Range Query ( select x from t where a y and y b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz Distributed Computing with Map-reduce 分布式计算架构,处理100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz ) 高吞吐率的运营服务子系统 核心处理算法 (1)- 基础 发现用户真正的点击行为 改进的贝叶斯算法过滤超过95%的垃圾或广告流量 语义分析技术 单字和词库结合的中文智能分词技术 大规模统计分析基础上的机器学习 从亿万网页中发现词的相关性 从单个页面中发现最重要的词 面向数据挖掘优化的海量计算 将传统的Data Mining算法移植到分布式平台上,实现PB级数据上 快速聚类和分类 快速关联分析 核心处理算法(2)-如何对用户行为分析建模 基本思想 发掘用户的显性特征 ( 关注关键词或相关词) 推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、年龄、阶层、爱好…) 显性特征- 隐性特征是大样本基础上的机器学习 Machine Learning,ML ),例子 “劲舞团” = 游戏 - 舞蹈类 | 青少年 85% “兰寇” = 化妆品 - 兰寇 | 女 70%?? 高端 = 65% “铁血” = 爱国 | 男 90% “美女” = 闲逛 | 男 90% “爱卡论坛” /“宝马” = 汽车 - 宝马 | 高端消费人群 70% 中端消费人群 60% 低端 30% “奶粉” = 婴幼儿用品 - 奶粉 | 女 70%,有小孩90% “内衣”, “爱慕” = 内衣 - 文胸 - 爱慕 | 女 85% 核心处理算法 (3)-处理流程 演示 Get a feeling of it … 演示用的数据样本来源 某运营商(江苏南京) 20000用户一周数据 计费系统Radius数据:1000万条 , ~10GB 包含:ADSL帐号、上线时间、离线时间、IP地址 用户所有上网行为数据(未清洗前):14亿条HTTP Requests, ~1TB 包含:Client IP地址, HTTP Host, URL, Cookie, Referer, Agent 数据分析平台 使用2台双路4核 Dell 1950需要16小时 使用10台双路4核 Dell 1950只需要1小时 1、用户群精准定位演示 – 按关键词 2、用户群精准定位演示 – 按行业
您可能关注的文档
- 用友软件远程培训实用实战.ppt
- 用友通中如何实现多计量单位.ppt
- 用友软件操作流程.ppt
- 用友通T3普及版年结.ppt
- 用友通形态转换和调拨.ppt
- 用友通服务工程师培训—常见问题.ppt
- 用友通标准版系统安装方法.ppt
- 用友通财务基础知识培训专题之7半个小时学财务.ppt
- 用友通总账培训课件.ppt
- 用友通财务软件系统安装方法.ppt
- 初中体育课程与心理素质的关系教学研究课题报告.docx
- 新时代中小学科研活动的规范化研究教学研究课题报告.docx
- 高中生职业选择中的环境因素分析与研究教学研究课题报告.docx
- 中学体育教学中体能训练的有效性探讨教学研究课题报告.docx
- 职业指导在高中生涯规划过程中的重要性探讨教学研究课题报告.docx
- 基于游戏的高中英语教学设计与研究教学研究课题报告.docx
- 高中物理实验教学中安全教育的有效策略教学研究课题报告.docx
- 创新型数学教学模式对学生影响分析教学研究课题报告.docx
- 高中生数学竞赛训练的方法与策略教学研究课题报告.docx
- 通过实验促进儿童科学素养的提升教学研究课题报告.docx
文档评论(0)