天文中的数据挖掘技术.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(二) 特点和优点: ? 监督性 ? 训练性 ? 非线性 ? 难理解性 ? 受训练样本限制 ? 输入量一般要先用PCA预处理 ? 若采用傅里叶变换, 不需知红移就可以对光谱分类 但在信噪比低时, 提高分类的效率, 红移可以确定 ? 与传统方法相比, 其具有的优点: 不需预先对试验样本的统计分布 做假设,对各类不 需要直观判断, 该方法可用于处理各种问题 (一)应用举例: ? 两种情形密度估计: 星系在红移空间的聚类 恒星在色空间的聚类 ? EM算法提供了星系在红移空间 的平滑分布,准确地描述了数据 库中数据的大小范围特征,同时, 提供了一种证认多维色空间中 的远离正常恒星的天体的方法, 例如:高红移类星体的证认 (二) 特点和优点: ? 利用AIC BIC 变坏的概率评价符合程度 ? 优于最好的带核的密度估计方法对分布的 估计,同时,对输入参数的要求并不严格 ? 优于标准的色选择技巧, 在于其证认天体是 建立在概率理论基础上 ? 概率密度分布要受到维数的限制, 而EM算 法的维数可具方便而定 ? 其描述了数据的正常分布, 从而可以在高维 空间中证认出远离者 (一): 应用举例: ? 分析有关大尺度结构和微波背景 辐射的大尺度巡天 ? 分析巡天的径向速度, 如:Mark III SFI ENEAR 巡天 * * ? 各个领域在近二十年来取得突破性的研究进展 ? 计算机技术, 网络技术和传感技术的飞速发展 ? 来自各个巡天计划和天文台的“数据雪崩” ? 科学家, 工程师和领域专家的缺乏 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降 更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术 特征: -- 以Tebyte 甚至Pebyte 计量 -- 不均匀性 -- 动力学性 -- 高维性(加上时间维可达13维甚至更高维) 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 知识: 综合信息形成的观点和普适性的理论 智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶 定义: 半自动或自动地从海量数据中发现模式, 相关性, 变化, 反常规律性, 统计上的重要结构和事件. 在 天文上, 就是从海量数据中发现稀有的天体或现 象, 或者发现以前未知种类的天体或新天文现象. ?特点:半自动或自动 提取 预测 大数据库 前者: 发现驱动 (数据驱动) 数据?研究 后者: 假设驱动 (人为驱动) 研究?数据 ? 统计学 ? 机器学习 ? 数据库 ? 高效率的计算 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代 -- 1950`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 -- 1970`s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档