- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算的中的大数据及其处理
云计算中的大数据及其处理报告资料 大数据服务的互连管理新方法探索 大数据是资源,不是服务! Data Linking?Service Linking?Semantics Linking 面向主题的大数据的服务语义封装与本体建模 大数据的虚拟化管理手段:注册 语义互连管理:面向主题的大数据服务的语义互操作性注册 跨语义互连:跨领域跨行业跨主题的语义互连 MFI? MFI+? 基于MFI的大数据服务的互连管理技术研究 大数据混合计算的原创性研究 基于RGPS本体的大数据混合计算 混合计算,吴文俊(“21世纪100个交叉科学难题”,pp656-657,科学出版社,2005) 计算和存储的分离,松耦合! 在本方法下,底层关系数据库还能用? 大数据管理与处理平台的挑战 高可扩展性:能够有效利用数百乃至数千个节点 高带宽、低延迟的存取访问 实时应用如医院的挂号、收费系统等,主要涉及小量数据的读取与写入,要求后端存储能够快速读写 复杂应用如医疗历史数据挖掘等,涉及大量数据的读取(一般不涉及写入),要求后端存储实现高吞吐量读取 高容错与高可用性:能够应付常态化的出错问题 能够针对网络传输瓶颈进行查询优化 …… 智慧医疗 * 大数据时代关系数据库的困境 实现关系数据模型理论的全部内容,同时对所有查询做到高效执行,几乎是不可能的 同样的查询,多种执行方式,如何优化执行? 数据与查询在变化,不存在普适的物理存储结构和查询优化方法 数据规模增大,原来高效的算法会变得低效 实现事务处理要求的原子性、一致性、分离性和持久性(ACID)的开销巨大 智慧医疗 * 智慧医疗 * 能够并行化不意味着高可扩展性 复杂分析 查询 结果 1000小时 复杂分析 查询 结果 复杂分析 查询 结果 1小时? 1个节点 100小时 10个节点 10小时? 100个节点 复杂分析 查询 结果 1000个节点 节点失效、网络中断将成为常态! 执行过程中出错,传统的并行数据库将重新执行整条查询! 可能永远也无法完成查询 解决之道:合理地做减法(1) 电子病历、健康日志、扫描成像图片等医疗数据,一旦写入,极少更新 对这些数据后续的访问,包括实时检索与复杂分析,都仅需要进行数据读取 针对数据读取进行性能优化,移除原子性、一致性、分离性和持久性支持 智慧医疗 * 关系 数据库 针对事务处理的优化 分析型 数据库 Tenzing 发展现状: 发展现状: 解决之道:合理地做减法(2) 数量众多的医疗传感器频繁采集数据时,产生的数据条数非常多,产生大量的小量写操作 医疗数据的保存要保证正确性与可靠性,因此必须支持原子性、一致性、分离性和持久性 支持简单的数据类型和简单查询,如键/值查询,不支持所有的关系数据模型操作,如联接查询(Join)等 智慧医疗 * 关系 数据库 结构化查询的完整支持 NoSQL 数据库 发展现状: 解决之道:合理地做减法(3) 为解决查询过程中节点与网络链路失效的问题,对查询的每一步子操作,都将执行结果写入磁盘(创建检查点) 放弃pipeline数据推送优化,牺牲部分执行效率换取高容错性 智慧医疗 * 关系数据库的并行查询引擎 并行执行查询时的pipeline数据推送机制 高容错 的并行查询引擎 发展现状: 智慧医疗 * 解决之道:有效地做加法 关系数据库的并行查询引擎 在数据推送同时将中间结果写入磁盘 高效高容错的并行查询引擎 关系数据库的存储结构 高容错的并行查询引擎 高效可扩展的分析型数据库 …… …… …… 大数据存储管理系统分类 结构化存储(如关系型数据库与数据仓库): 优点:数据结构良好、功能完备、速度快 缺点:灵活性差、不易扩展、预处理开销大 日志式存储(如Hadoop Hive): 优点:无需预处理、灵活性强、易于扩展 缺点:功能较弱,需用户介入以提供高级查询功能 半结构化存储(如BigTable、Key/Value存储): 优点:速度快,易于扩展,预处理开销适中 缺点:功能相对较弱,介于前两者之间 智慧医疗 * 医疗云与大数据处理技术研究 技术挑战 高可用、易扩展、高性能的数据存储系统 适应多种需求的大数据管理与处理平台 数据清理与数据加载 实时数据检索与复杂数据分析 智慧医疗 * 医疗数据清理 医疗传感器采集的数据存在误差,经常会丢失,甚至可能出错 直接将原始数据用于数据分析,可能引发错误的医疗诊断和护理方案(严重!) 智慧医疗 * 时间 每分钟 心跳次数 100 200 300 400 如何区分心跳异常变化和数据错误? 智慧医疗 * 数据加载 为频繁更新操作优化 事务型数据库 为读取与复杂分析优化 分析型数据库 医学影像信息 系统(PACS) ICU监护系统 电子病历 读/写 医疗传感器 写 读/写 医疗云服务 读 复杂查询 数据挖掘 读
文档评论(0)