[工学]高级人工智能14-MSMiner.ppt

下载文档 降价啦

3
0
约1.11万字
约 84页
2018-02-18 发布于浙江
举报
版权申诉
保障服务

[工学]高级人工智能14-MSMiner.ppt

1、本文档共84页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]高级人工智能14-MSMiner

* 史忠植高级人工智能 * 数据挖掘集成工具：外联 BP神经网络统计分析模糊聚类超曲面分类 SVM 贝叶斯网络基于范例推理(CBR) 隐马尔科夫模型(HMM) * 史忠植高级人工智能 * BP用于预测 * 史忠植高级人工智能 * 统计工具线性回归模型——一元线性回归、多元线性回归、逐步回归非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型确定型时间序列模型——指数平滑法、趋势移动平均法（水平趋势、线性趋势和二次曲线趋势）、成长曲线模型（Compertz曲线、Logistic曲线和修正指数曲线）、季节指数法随机型时间序列模型（自回归－移动平均模型ARMA）相关分析 * 史忠植高级人工智能 * 自回归移动平均( ARMA) * 史忠植高级人工智能 * 模糊聚类基于传递闭包的模糊聚类——计算模糊相似矩阵的传递闭包，从而获得传递闭包法的模糊聚类基于摄动的模糊聚类——参数系?相似矩阵的最优模糊等价阵及其等价标准型?获得失真最小的模糊聚类 * 史忠植高级人工智能 * 数据挖掘集成工具：可扩展算法库算法注册 * 史忠植高级人工智能 * MSMiner的应用：计算机选案决策树选案执行选案选案结果分析定义样本模板训练样本数据选案规则样本数据表数据汇总表税务稽查计算机选案系统功能结构 * 史忠植高级人工智能 * MSMiner的应用：计算机选案挖掘结果：云计算时代的分布并行编程技术分布并行数据处理技术 Google Map/Reduce Hadoop Map/Reduce? 分布式文件系统 Google File System Hadoop Distributed File System 分布式数据库 Google BigTable Hadoop HBase 云计算时代的分布并行编程技术分布并行数据处理 * 软件工程国家重点实验室 Map/Reduce 用于大规模数据并行处理数据量大（超过1TB）在成百上千个CPU上并行处理用户只需实现下面接口 map (in_key, in_value) - (out_key, intermediate_value) list reduce (out_key, intermediate_value list) - out_value list 分布并行数据处理 * 软件工程国家重点实验室 Map/Reduce架构分布并行数据处理 MapReduce实现原理分布式文件系统 * Google File System（GFS）需求：在廉价、相对不可靠的计算机上对巨量数据进行冗余存储。为什么不用现有的文件系统？--Google面对特殊的挑战文件较大，每个都在100M以上，通常为几个GB 文件通常需要频繁的追加用流方式读取高吞吐量低延迟针对上述问题，GFS在文件系统性能和可伸缩性方面进行了优化设计。 GFS的设计理念文件用块存储每个块固定为64MB 通过冗余解决可靠性问题每个块同时拷贝在3个块服务器上主服务器负责协调访问和保存元数据简单化的集中管理定制化的API 无数据缓存较大文件块和流式读取使得缓存效果不佳 * 分布式文件系统 GFS架构分布式文件系统 GFS集群一个 GFS 集群有一个主服务器和多个块服务器文件被分割成固定尺寸的块。块服务器把块作为 linux 文件保存在本地硬盘上，并根据指定的块句柄和字节范围来读写块数据。主服务器管理文件系统所有的元数据，包括名字空间、访问控制信息和文件到块的映射信息，以及块当前所在的位置。客户端与主服务器交互，处理元数据客户端与块服务器交互，存取数据本身分布式文件系统分布式数据库系统 Google BigTable 为了处理Google内部大量的格式化以及半格式化数据而构建的大规模分布式数据存储系统特点面向大规模处理、容错性强的自我管理系统，拥有TB级的内存和PB级的存储能力，每秒可以处理数百万的读写操作能够保存记录的不同时段的版本构建于GFS和Map/Reduce基础之上软件工程国家重点实验室 * BigTable的设计理念面向网页数据的发布、有哪些信誉好的足球投注网站和浏览等特定处理的需要，简化数据管理系统的设计，并提高性能不支持关联不支持SQL查询简化数据的一致性管理网页数据的管理对一致性要求不高简化事务管理网页数据的处理（有哪些信誉好的足球投注网站、发布）对事务管理要求不高面向海量数据管理要求设计分割和合并管理机制（基于元数据）设计自动伸缩功能（根据数据量调整资源用量）软件工程国家重点实验室 * 分布式数据库系统 BigTable的实现 GFS为表文件、元数据和日志提供