[工学]高级人工智能14-MSMiner.ppt

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]高级人工智能14-MSMiner

* 史忠植 高级人工智能 * 数据挖掘集成工具:外联 BP神经网络 统计分析 模糊聚类 超曲面分类 SVM 贝叶斯网络 基于范例推理(CBR) 隐马尔科夫模型(HMM) * 史忠植 高级人工智能 * BP用于预测 * 史忠植 高级人工智能 * 统计工具 线性回归模型 ——一元线性回归、多元线性回归、逐步回归 非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 确定型时间序列模型——指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法 随机型时间序列模型(自回归-移动平均模型ARMA) 相关分析 * 史忠植 高级人工智能 * 自回归移动平均( ARMA) * 史忠植 高级人工智能 * 模糊聚类 基于传递闭包的模糊聚类 ——计算模糊相似矩阵的传递闭包, 从而获得传递闭包法的模糊聚类 基于摄动的模糊聚类 ——参数系? 相似矩阵的最优模糊等价阵及其等价标准型?获得失真最小的模糊聚类 * 史忠植 高级人工智能 * 数据挖掘集成工具:可扩展算法库 算法注册 * 史忠植 高级人工智能 * MSMiner的应用:计算机选案 决策树选案 执行选案 选案结果分析 定义样本模板 训练样本数据 选案规则 样本数据表 数据汇总表 税务稽查计算机选案系统功能结构 * 史忠植 高级人工智能 * MSMiner的应用:计算机选案 挖 掘 结 果: 云计算时代的分布并行编程技术 分布并行数据处理技术 Google Map/Reduce Hadoop Map/Reduce? 分布式文件系统 Google File System Hadoop Distributed File System 分布式数据库 Google BigTable Hadoop HBase 云计算时代的分布并行编程技术 分布并行数据处理 * 软件工程国家重点实验室 Map/Reduce 用于大规模数据并行处理 数据量大(超过1TB) 在成百上千个CPU上并行处理 用户只需实现下面接口 map (in_key, in_value) - (out_key, intermediate_value) list reduce (out_key, intermediate_value list) - out_value list 分布并行数据处理 * 软件工程国家重点实验室 Map/Reduce架构 分布并行数据处理 MapReduce实现原理 分布式文件系统 * Google File System(GFS) 需求:在廉价、相对不可靠的计算机上对巨量数据进行冗余存储。 为什么不用现有的文件系统?--Google面对特殊的挑战 文件较大,每个都在100M以上,通常为几个GB 文件通常需要频繁的追加 用流方式读取 高吞吐量 低延迟 针对上述问题,GFS在文件系统性能和可伸缩性方面进行了优化设计。 GFS的设计理念 文件用块存储 每个块固定为64MB 通过冗余解决可靠性问题 每个块同时拷贝在3个块服务器上 主服务器负责协调访问和保存元数据 简单化的集中管理 定制化的API 无数据缓存 较大文件块和流式读取使得缓存效果不佳 * 分布式文件系统 GFS架构 分布式文件系统 GFS集群 一个 GFS 集群有一个主服务器和多个块服务器 文件被分割成固定尺寸的块。 块服务器把块作为 linux 文件保存在本地硬盘上,并根据指定的块句柄和字节范围来读写块数据。 主服务器管理文件系统所有的元数据,包括名字空间、访问控制信息和文件到块的映射信息,以及块当前所在的位置。 客户端与主服务器交互,处理元数据 客户端与块服务器交互,存取数据本身 分布式文件系统 分布式数据库系统 Google BigTable 为了处理Google内部大量的格式化以及半格式化数据而构建的大规模分布式数据存储系统 特点 面向大规模处理、容错性强的自我管理系统,拥有TB级的内存和PB级的存储能力,每秒可以处理数百万的读写操作 能够保存记录的不同时段的版本 构建于GFS和Map/Reduce基础之上 软件工程国家重点实验室 * BigTable的设计理念 面向网页数据的发布、有哪些信誉好的足球投注网站和浏览等特定处理的需要,简化数据管理系统的设计,并提高性能 不支持关联 不支持SQL查询 简化数据的一致性管理 网页数据的管理对一致性要求不高 简化事务管理 网页数据的处理(有哪些信誉好的足球投注网站、发布)对事务管理要求不高 面向海量数据管理要求 设计分割和合并管理机制(基于元数据) 设计自动伸缩功能(根据数据量调整资源用量) 软件工程国家重点实验室 * 分布式数据库系统 BigTable的实现 GFS为表文件、元数据和日志提供

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档