- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量流程实例的存储、索引与检索研究课件
* 以下是我今天汇报的主要内容 * 过程挖掘是一个从事件日志中提取业务过程并且进行流程分析的研究领域。在过去的10年里,信息系统、互联网、传感器使用得越来越普遍,为我们的业务过程挖掘提供了充足的源事件日志,让发现、检测和改善已有的业务过程在实际业务流程管理中变得越来越可行。但是在利用大量的事件日志进行过程挖掘时,我们不得不面临以下挑战:如何从事件日志中提取有效信息,如何快速的将源日志转换成标准的事件日志,如何有效的对事件日志进行管理等等。我们研究的内容就是如何从各种数据源中采集事件日志、通过索引和检索的方法管理事件日志。 * * 我们考虑的原始事件日志格式主要有纯文本格式、EXCEL格式以及存储在数据库中的事件日志,通过事件日志的采集从这些原始事件日志中提取出一个个过程实例,存储在标准事件日志库中,通过索引管理存储器为已经存储在标准事件日志库中的过程实例建立和维护索引,当有特定的需求时,检索器可以从标准事件日志库中检索出符合要求的过程实例集合,并且导出成标准的XES格式。 * * 针对已经启用的四类索引进行的测试 * * * 提出了一种通用的日志转换方法,它能够从一般的纯文本、Excel表、数据库表等格式的事件日志抽取过程信息,并将不同的事件按照案例ID组合成一个个过程实例; 提出了采用分布式数据库存储海量过程实例的方法,来解决单机磁盘存储空间不足的问题,并设计了一套缓存机制去支持单机情况下的海量日志转换工作; 设计了一套过程实例的存储和索引机制,在该机制下用户可以根据自己业务分析需要非常方便的扩展新的索引,并且根据业务流程分析的一般需求设计并实现4种基本的过程实例索引; 提出了一种过程实例的检索框架,该框架首先检查用户的检索条件,然后根据过程实例索引的具体情况,对检索条件进行优化,由检索执行引擎执行检索操作并将最终结果返回。 * 海量流程实例的存储、索引与检索研究 郭芬,闻立杰,王建民 * 目录 研究背景 通用的流程实例管理框架 海量流程实例的存储和索引 流程实例的检索 工作总结 * 目录 研究背景 通用的流程实例管理框架 海量流程实例的存储和索引 流程实例的检索 工作总结 * 研究背景 * 信息系统、互联网、传感器等 是大数据的主要来源 - 事件日志 大数据 挑战 机遇 发现、检测和改善 业务过程 - 过程挖掘 提取有效信息 快速的日志转换 有效的事件日志管理 - 事件日志的采集、索引和检索 大数据环境下的机遇和挑战 目录 研究背景 通用的流程实例管理框架 海量流程实例的存储和索引 流程实例的检索 工作总结 * 通用的流程实例管理框架 * 数据库日志 纯文本日志 EXCEL日志 日志转换 流程实例库 索引管理器 索引创建/使用 检索器 流程实例结果集 XES事件日志 本文研究 范围 目录 研究背景 通用的流程实例管理框架 海量流程实例的存储和索引 流程实例的检索 工作总结 * 海量流程实例的存储和索引 流程实例 caseid channel 时间 userid ??? browser case1 news 2013/3/23 14:20 fenyo ??? chrome case1 video 2013/3/23 14:21 fenyo ??? chrome case1 page 2013/3/23 14:21 fenyo ??? chrome case1 page 2013/3/23 14:23 fenyo ???? chrome case1 weather 2013/3/23 14:25 fenyo ??? chrome 案例ID 活动任务 时间戳 属性1 属性n 8 海量流程实例的存储和索引 流程实例的特点 流程实例数量庞大 某小用户量的有哪些信誉好的足球投注网站引擎每天2G的点击日志 三一重工的装备每天产生约2亿条工况数据 案例ID,活动任务,时间戳必须存在 属性可以不存在,不同流程实例所拥有的属性可以相差很大 9 海量流程实例的存储和索引 流程实例存储结构 caseid RowKey:taskid_caseid startingtime endingtime activitysequence casecontent 通过taskid_caseid 唯一确定一个流程实例 taskid 确定同一批 事件日志中 不同流程实例 区分不同事件 日志转换任务 (建立二级索引) 流程实例 开始时间 流程实例 结束时间 流程实例 活动序列(如 A-B-C-D) 流程实例的 JSON表述 10 海量流程实例的存储和索引 列名 内容 caseid case1 startingtime 2013/3/23 14:20 endingtime 2013/3/23 14:25 taskid e1
您可能关注的文档
最近下载
- 对银行董事会、董事、监事、高管层及其成员年度履职情况的评价报告.pdf VIP
- 《数据库管理》课件.ppt VIP
- 中央企业合规管理系列指南.pdf VIP
- 谁是最可爱的人公开课精讲.ppt
- 在全县教育系统警示教育大会上的讲话.docx VIP
- 2024(新高考1卷)英语试题详解解析 课件.pptx
- GB 19889.3-2005-T 声学 建筑和建筑构件隔声测量 第3部分 建筑构件空气声隔声的实验室测量.pdf
- 2024年枣庄科技职业学院高职单招(英语/数学/语文)笔试题库含答案解析.docx
- 人教PEP版五年级下册英语全册教案 .pdf
- 黑龙江省2023-2024学年七年级上学期期末考试历史试卷(含答案).docx VIP
文档评论(0)