- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章数据的获取与处理
数据资产的获取
从企业的角度出发,数据可分为内部数据和外部数据:
内部数据是企业在自身经营过程中产生的,可以通过信息
技术挖掘获取;
外部数据要通过看、买、引等不同手段来获取。
大数据时代,企业面临的第一个难题,就是如何从冗余的
资料中获得企业需要的信息,形成自己的数据资产。
内部数据大多是通过专业的系统生成或手工记录得到的,
所以,内部数据重在后期处理上;下面对外部数据的获取
方式进行学习。
数据资产的获取——通过专业网站看数据
现阶段国内针对某个行业提供专业数据的网络平台,以电
子商务领域的居多,如电子商务媒体——亿邦动力网,伴
随淘宝兴起的——卖家网等等。
数据资产的获取——通过收费渠道买数据
数据对企业的价值是不言而喻的,正因如此,越来越多的
第三方数据平台应运而生,它们通过为企业提供行业或公
司数据来获取收益。
如专门提供零售数据的联商网子项目——联商数据中心就
是一个收费查询网站。
专业搜集和维护数据的组织:
邓白氏(Dun Bradstreet )
彭博(Bloomberg )
道琼斯公司(Dow Jones Company)
。。。。
相关行业协会和组织
政府部门
• 你是否了解其他数据公
司?
• 主要出售哪些类型的数
据呢?
• 科研数据库?
数据资产的获取——通过特殊形式引数据
要建立企业自己的数据资产,就要将外部数据纳入自己
的数据库中,通过上面两种方式获得的数据需要及时记
录下来以备日后使用。
以EXCEL为例:
对于某些特殊形式的数据,有简便的记录方法,例如:
网站上中的表格数据可以通过Excel中的数据导入功能来
记录。
导入数据步骤:
1. 找到Excel数据栏;
2. 获取外部数据部分点击 “自网站”;
3. 输入网址点击 “转到”。
4.点击表格左上角的 ,然后点击新建web查询对话框
右下角的 “导入”按钮; (Excel 版本不同)
5. 选择存放数据的位置,点击 “确定”;
6. 美化导入的数据。
以SPSS为例
数据资产的获取——通过自身积累攒数据
数据积累是一个漫长的过程,需要企业管理者长期不断的
关注社会动态、了解行业资讯,也需要综合使用上面三种
方式。
积累数据的基础在于拥有不同的数据来源渠道。
其他说明:
海量交易数据:
企业内部的经营交易信息主要包括联机交易数据
和联机分析数据,是结构化的、通过关系数据库
进行管理和访问的静态、历史数据。通过这些数
据,我们能了解过去发生了什么。
海量交互数据:
源于Facebook、Twitter、微信,微博及其他来源的
社交媒体数据构成。它包括了传送的海量多媒体文
件、Web文本和点击流数据、科学信息、电子邮件等
等。可以告诉我们未来会发生什么。
马云成功预测2008 年经济危机
• “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采
购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间
从询盘上推断出世界贸易发生变化了。”
• 通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿
里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保
持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为
数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘
数据的下降,自然导致买盘的下降。
海量传感器数据:
源于各类传感器,如摄像头,可穿戴设备,智能
家电,工业设备等。它包括了多种环境信息,人
体运动记录,操作记录等等。这一部分数据规模
将更加庞大。
交易数据
数据抽取与集成工具,ETL
主动抽取,源与目的都非常明确
文档评论(0)