天体光谱数据挖掘技术研究 - china-vo.ppt

下载文档 降价啦

2
0
约9.92千字
约 52页
2017-09-03 发布于天津
举报
版权申诉
保障服务

天体光谱数据挖掘技术研究 - china-vo.ppt

1、本文档共52页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

天体光谱数据挖掘技术研究 - china-vo

天体光谱数据挖掘技术太原科技大学计算机科学与技术学院张继福 2008年11月一、概述 1）数据挖掘 2）天体光谱数据挖掘 3）课题的研究意义二、主要研究工作 1）基于约束FP树的天体光谱数据相关性分析 2）基于概念格的天体光谱离群数据挖掘数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含的、未知的、潜在的有用信息和知识，为决策支持服务。主要任务：关联规则、分类、聚类、离群数据等。常用的方法有：关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。天体光谱数据挖掘我国正在建造一台大天区面积多目标光纤光谱望远镜（LAMOST），是国家重大科学工程项目，也是世界上光谱获取率最高的望远镜。预计LAMOST所观测到的光谱数据容量将有可能达到4TB。急需一种新的以计算机为主的数据分析技术, 分析和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容:预处理(去噪、归一化等)、分类与识别、测量（红移等参数）等。一条Seyfert 2 光谱数据图(红移为0) 天体光谱是天体电磁辐射按照波长的有序排列，蕴含着天体的重要物理信息，例如：天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息，不仅可以研究宇宙中物质的分布特征，还可以研究天体的形成和随时间的演化等重大科学问题。主要的方法交叉相关分析与主成分分析（PCA）、人工神经网络、小波变换、贝叶斯统计、SVM等。典型的成果 1） Autoclass，基于贝叶斯统计的一种光谱分类方法，发现了一些以前未注意的光谱类型和谱线； 2） Gulati等人采用两层BP神经网络方法，用于恒星光谱次型的分类； 3）Ellis等人采用交叉相关分析对光谱进行分类； 4）邱波等人采用基于粗糙集的方法，进行了恒星光谱的分类识别； 5）覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法； 6）刘中田等人提出基于小波特征的M型星自动识别方法等。课题的研究意义由于天文界对宇宙的认识还比较有限，LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体，因此，如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景，对天体光谱数据挖掘技术进行了研究，其研究成果不仅具有重要的理论价值，而且可直接应用到LAMOST中，为国家重大科学工程提供技术支撑。引言关联规则描述了属性之间的关联程度，也就是说有效地描述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的，具有重要的应用价值。频繁模式集的生成是提高关联规则挖掘效率的关键。频繁模式生成主要有：Apriori和FP两类算法。 Apriori算法优点: 思路比较清晰，以递归统计为基础，剪枝生成频繁集；缺点: 在生成频繁模式过程中，需要产生大量的候选项和多次遍历数据库，I/O代价太高，难以适应海量高维数据。 FP算法优点: (l) 通过对FP树的递归访问，产生频繁模式集，仅需要构造FP树和条件FP树，不需要产生候选项集； (2) 对事务数据库仅需两次遍历，第l次遍历产生频繁l-项集，第2次遍历用于构造FP树，从而降低了访问数据库的次数。缺点: FP树需要占用大量内存。约束FP树及其构造一阶谓词逻辑与背景知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段，是一项高级的智能活动，因此数据挖掘过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系，因此采用一阶谓词逻辑描述关