数据挖掘以吉贝克为例.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘以吉贝克为例

数据挖掘小议——以吉贝克公司为例 数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(英文:Knowledge-Discovery in Databases,缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动有哪些信誉好的足球投注网站隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 说到数据挖掘,对许多人来说是一个全新的概念。我们不妨举一个例子好让这个复杂的概念简单化:以麦当劳餐厅为例,有的顾客喜欢薯条,有的喜欢汉堡,有的喜欢可乐和鸡腿,不同的客户往往有着不同的选择。但是,如果有一个数据仓库将这些不同顾客选择产品的数据进行收集和分析,就会发现相当多的客户在选择汉堡的时候会点上一杯可乐,在点了薯条的同时也许会配上一份鸡翅。有了这样的判断,麦当劳就会根据大多数的选择,推出相应的套餐,并给出一定的优惠,既吸引了你的购买,又节省了自身的交易成本。 在企业的业务运营中,通常会借助数据挖掘技术来辅助产品设计、营销推广等环节的工作。总的来说,做数据挖掘的公司主要分两类:一类是技术开发性质的公司,一类是应用咨询的公司。对于应用咨询类的数据挖掘,我个人觉得是最符合客户需求的一类数据挖掘服务,因为它往往能直接解决客户的问题,帮助客户成功。 对于商业企业来说,他们每天都需要面对大量的数据,但如何发掘其背后的价值,从这些海量数据中抽取、筛选、加工并提炼出有价值的内容,进而上升为人工智能,借助功能强大的计算机和人工神经元网络、决策树等现代数理分析知识,对海量数据进行有效筛选整理,继而对服务对象提供具有决策价值的解决方案,让管理者由此告别“拍脑袋”作决策的尴尬选择。做这样事情在我们国内还得说是一种新业务。这就是刘世平旗下的吉贝克公司做的事情。 吉贝克信息技术有限公司是全球商业智能领域的佼佼者,本着“客户至上、服务第一、技术领先、质量超群”的经营原则,通过“数据—信息—知识—商业智能—盈利能力”的价值链,为客户提供商业智能(数据仓库、数据挖掘)、IT 基础架构的业务咨询和系统软件开发等服务,帮助企业迅速建立并轻松运用商业智能,提高其决策水平和竞争能力并获得丰厚的回馈。其口号是“汇聚数据财富,挖掘潜力无限”。 吉贝克公司的总裁——刘世平,是公认的业内资深的商业智能(数据仓库、数据挖掘)和风险管理的顶级专家,拥有10多年商业智能领域的国际开发和管理经验,为全球数超过百家家大型公司担任过商业智能咨询。 从创业之初,刘世平就为吉贝克制定了目标:“做中国数据挖掘的第一品牌。” 吉贝克公司先后为上海证券交易所、深圳证券登记公司、交通银行、中信银行、兴业银行、北京移动、新浪网、河北省地方税务局、西门子(中国)公司、美国罗氏药业等知名企业完成了多个咨询、数据仓库及数据挖掘项目,并获得了百分百的满意度。 数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下: 1、数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。 2、分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,…,vn;c),其中vi表示字段值,c表示类别。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 3、聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。 4、关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,例如:今天银行利率的调整,明天股市的变化。 5、预测:

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档