- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Process Mining学习笔记(一) _ 面子与里子
20 15/6/7 Process Mining学习笔记 (一) | 面子与里子
Date Science and Big Data
当今的时代,海量数据不断地产生,在过去的10分钟产生的数据量,都超过了2003年之
前人类历史上产生的所有数据。人类的各种活动,都会不断地产生一系列的event
data (事件数据)。人类的事件数据形成了一个网,即Internet of Events 。它的数据主
要有4种来源:
1. Internet of content 如web 页面数据
2. Internet of People 社交网络上人们通过各种关系产生
3. Internet of Things 物联网
4. Internet of Places 地理位置信息
由数据的指数级增长,又谈到了摩尔定律 (Moore’s Law ),每两年芯片中晶体管的数量
将翻一翻,在过去的40年间,数量增长了2^20 1048576 。这种增长是非常惊人的。40年
前从 Amsterdam 到 Newyork 要坐7小时的飞机,如果飞机的飞行速度发展也能遵照摩
尔定律,那么40年后只需0.024秒 (可惜并没有如此高速发展)……
如今,我们关注的不是如何生成数据,而是如何从海量数据中发现有价值的内容。
大数据领域,我们经常会关注的4个V :
chrome-extension://iooicodkiihhpojmmeghjclgihfjdjhj/front/in_isolation/reformat .html 1/ 11
20 15/6/7 Process Mining学习笔记 (一) | 面子与里子
大数据的4V
1. Volume (容量):海量数据
2. Velocity (速度):数据在不断的变化
3. Variety (多样):数据的多样性,文本,图象,音视频等
4. Veracity (真实):数据的真实性
数据科学领域,我们会提出以下的4个问题:
1. What happened ? 过去发生了什么?
2. Why did it happend ?为什么会发生?
3. What will happen ? 将会发生什么? (做预测Prediction )
4. What is the best that can happend ? 如何更好的发生?
这门课程集中在基于过程process的数据,利用 event data ,来改进过程。
课程集中的领域
Different types of process mining
Process Mining集中在关注performance-oriented problems和compliance-oriented
problems 。
Event data 是 process mining 的入口,什么是 event data 呢?
一系列的日志信息,均可以称为 event data ,比如学生的所有成绩单、订单的记录、病
人治疗的日志等。
在 Process Mining 中,我们需要关注的是process models 与 event data 之间的关系。如
chrome-extension://iooicodkiihhpojmmeghjclgihfjdjhj/front/in_isolation/reformat .html 2/ 11
20 15/6/7 Process Mining学习笔记 (一) | 面子与里子
下图所示:
Process Mining 的类型
1. Play Out :从已知的process模型中生成 event data
2. Play -In :根据 event data 发现 process模型,是一个discovery 的过程。
3. Replay :已知 model 和 event data ,二者互相验证,发现 event data 和 model 的问
题
Replay 可以带上 timestamp ,即 event data 的数据会带有时间戳,可以知道每个步骤的
耗时。Replay 可以用来做performance analysis ,发现过程中哪里是瓶颈。
下图是对整个 process mining 的概要描述
ch
文档评论(0)