- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4 并行数据挖掘工具测试用例 - bpm 2013 - 清华大学
文档编号:BD-CESHI-002
海量数据挖掘测试报告
课题编号:2010ZX01042-002-002
课题名称:非结构化数据管理系统
课题来源:核高基国家科技重大专项
所属方向:基础软件产品
课题牵头承担单位:清华大学(牵头)
课题组长:孙家广
分课题承担单位:北京大学
分课题负责人:王腾蛟
课题实施起止年限:20 10年 1 月至 20 11年 12月
项目文件更改历史记录
版本号 修改要点 编写/修改人 批准人 批准日期 V1.0 第一版 苗高杉 2011-11-28
目 录
1 编写目的 1
2 术语、定义和缩略语 1
2.1 术语、定义 1
2.2 缩略语 1
3 测试环境(待修正) 2
3.1 云计算平台环境 2
3.1.1 网络配置 2
3.1.2 节点配置 2
3.1.3 平台工具 2
3.2 并行数据挖掘工具环境 2
3.3 数据准备 3
3.3.1 数据分类及用途 3
3.3.2 数据用途 3
4 并行数据挖掘工具测试用例 3
4.1 功能测试 3
4.1.1 人工神经网络算法 3
4.1.2 PCA特征提取算法 6
4.2 性能测试 8
4.2.1 人工神经网络算法 8
4.2.2 PCA特征提取算法 10
4.3 扩展性测试 14
4.3.1 人工神经网络算法 14
4.3.2 PCA特征提取算法 16
5 评估计划 19
6 测试记录 19
6.1 神经网络算法 19
6.1.1 功能测试记录: 19
6.1.2 性能测试记录: 19
6.1.3 扩展性测试记录: 22
6.2 PCA属性选择算法 1
编写目的
编写本《测试报告》的目的在于详细地说明海量数据挖掘程序的测试要求测试结果及分析,以利于本软件的设计、研发、测试、推广和二次开发等。测试报告所针对的不同读者,例如:开发人员、项目管理者、用户、测试人员或文档的编写人员。
术语、定义和缩略语
术语、定义
1. 原则
本系统的符号表示、命名规则均按国家有关标准及国际惯例约定,适用于整个开发周期。
2. 符号规定
流程图符号规定:
3. 常见同义词汇
数据集(样本空间、样本集)
属性(维度)
类(簇、聚簇)
缩略语
本文件应用了以下缩略语:
DM:Data Mining 数据挖掘
PDM:Parallel Data Mining 并行数据挖掘
ETL:Extraction Transform Load 抽取转换装载
PETL:Parallel Extraction Transform Load 并行ETL
MapReduce:Hadoop Map Reduce Framework Hadoop并行编程框架
ML:Machine Learning 机器学习
DFS:Distributed File System 分布式文件系统
HDFS:Hadoop Distributed File System Hadoop分布式文件系统
SAAS:Software as a service软件即服务
测试环境(待修正)
云计算平台环境
网络配置
Hadoop系统的节点通过千兆以太网连接,目前计算节点数为256个,直接连接到一个384端口的高端千兆交换机,所有节点间可以进行线速转发。交换机具有三层路由功能。
计算节点分出一台作为NameNode、一台作为SecondaryNameNode、一台作为JobTracker、一台作为Management Server,其余节点兼作DataNode、TaskTracker。
节点配置
考虑数据规模情况,我们将划分给数据挖掘工具的计算节点数量,部署节点数大于32台(具体待定);具体配置如下:
单路双核或四核CPU
8G内存
4*250GB 7200转SATA II硬盘
千兆网卡支持WAKE UP功能
平台工具
数据重分部工具(rebalancer),可以提供将数据重新均匀分布的工具。
高速数据上载工具,可以提供一个多个客户端的数据上载工具。
并行数据挖掘工具环境
同Hadoop平台位于相同局域网环境下,节点为Hadoop平台相同配置,操作系统为Red Hat Linux.
数据准备
数据分类及用途
数据分为两类:
数据集类型 目的 来源 数据集规模 公测数据 用于验证算法的基本功能,此类数据为网络经典数据挖掘的数据集,用于进行并行算法与串行算法效果的比对。 网络经典数据测试集 每个算法2-3个数据集合 KB、GB级别 应用数据 用于对算法的正确性、性能、扩展性进行验证,验证算法对海量数据的支持能力及海量数据挖掘的正确性。 省公司 每个算法2-3个数据集 GB、TB级别 数据用途
数据用途包括
原始数据:供ETL使用,TB级 数据内容
已知的ETL结果数据:供ETL结果比对
您可能关注的文档
- 2-5 中国品牌现状(下).ppt
- 2系统设计思想 - 企业生产实际教学案例库.doc
- 一种微纳复合结构的种植体表面的构建及其生物学评价 - 浙江大学学报.pdf
- 临朐县龙山高新技术产业园规划环境影响报告书 - 临朐信息公开.pdf
- 细胞融合和单克隆抗体课件 - 中华中学.ppt
- 多分辨率分析和小波能量曲率的框架结构损伤识别 - 哈尔滨工业大学学报.pdf
- 911稳态热阻高等电力电子技术.ppt
- instructions for use title nial-x合金/酸化皮膜界面の微细 - huscap.pdf
- cuo 与负载间相互作用的密度泛函理论.pdf
- 块状非晶质合金 - 中央大学机械系 - 国立中央大学.pdf
文档评论(0)