海量星表数据融合进展与改进计划-China-VO.ppt

海量星表数据融合进展与改进计划-China-VO.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量星表数据融合进展与改进计划-China-VO

11/29-12/03 China-VO 2006, Guilin 海量星表数据融合系统 的完善与应用 * 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原 主 要 内 容 多波段交叉证认的背景及原理 数据融合工具的国外现状 海量星表融合系统的介绍 将来工作的方向 ◆ ◆ ◆ ◆ 随着科学技术的发展,天文学进入了全波段巡天观测阶段,形成了多波段天文学,来自各个波段的巡天和观测数据急剧增长,如何将这些星表统一起来以探测和研究天体在各波段的特性,这就需要星表之间的交叉证认。 天文学发展背景 利用各种数据的共同属性——位置,通过多波段交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识,加深对证认源的新的天文理解,为统计分析和数据挖掘做准备。 多波段交叉证认 原理: 有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足 则认为它们可能是同一天体。 数据清洁 数据融合 数据库 数据仓库 特定任务的数据 选择 数据挖掘 模式评估 数据融合:数据挖掘的基石 知识发现的过程 创建/选择 目标数据库 取样技巧选择 样本数据 处理缺值数据 数据归一化 选择 DM 任务 转化成不同的 表示形式 删除噪音数据 转换数据 选择 DM 方法 构造新的参量 提取知识 发现重要的 参量及其取 值范围 验证知识 精炼知识 查询和报告产生 整合排序 高级方法 数据仓库 1 2 3 4 5 数 据 融 合 多波段数据分析流程图 红外数据 光学数据 X射线数据 其它数据 射电数据 交叉 证认 一对一 一对多 多对一 一对无 多对无 概率分析 统计研究 数据挖掘 …… 依赖关系 偏差分析 序列模式 关联规则 聚类分析 分类分析 特殊分析 多波段数据分析的流程图 数据融合工具的国外现状 VizieR已经收集6000多个星表。每个星表都有小样本交 叉证认服务,但结果还需要用户二次加工。 Simbad提供查询服务 ,主要提供点源的证 认情况。 Aladin是数 据的可视化工具,并 提供查询、交叉证认 、光谱分析等功能。 任意海量数据交叉证 认还没有实现。 数据融合工具的国外现状 MAST 是NASA资助的 基金项目,为天文学 界提供各种各样的天 文数据库的支持和服 务,主要用于获得可 见光、紫外和近红外 的相关的光谱数据。 也提供了仅限于小样 本的交叉证认。 数据融合工具的国外现状 OpenSkyQuery用一种通 用的查询语言ADQL实 现了数据查询、交叉证 认等功能,但该系统查 询或证认的行数不能超 过5000行。 数据融合工具的国外现状 OpenSkyQuery 用一种通用的查询语言ADQL实现了数据查询、交叉证认等功能,但该系统查询或证认的行数不能超过5000行。 SDSS CasJob 提供了SDSS巡天数据的SQL语言查询和数据下载服务,但每次查询的结果限制在500M之内。 Topcats 提供各种方法浏览和分析数据表,包括浏览核心数据、表的原始信息和列的元数据、以及画图工具、统计计算、交叉证认等,但内存一般限制在256M范围内。 数据融合工具的国外现状 总的说来当前证认工具种类繁多,但目前国外 这些大数据中心提供的多源查询服务都有其局限 性,数据资源局限和功能局限,以及一堆严格的 标准要熟悉,而且天文学家的很多要求还是不能 实现,更不用说海量数据的异地交叉证认了。 数据融合工具的国外现状 海量星表融合系统XMaS _VO 高丹等同学开发的海量星表融合系统XMaS _VO系统基于支持SQL语言的数据库系统,是面向使用者提供的一种服务。此系统架构在北京天文数据中(BADC),BADC有包括SDSS、2MASS、USNO等大型巡天星表。用户可以上传自己的星表,使用BADC的系统提供的服务;也可以方便地移植到任何数据库系统上。 Data1 User’s Data Center USNO Other SDSS 2MASS BADC XMaS_VO XMaS_VO User1 User2 Other Data2 基于服务器的海量星表融合系统 基于用户的海量星表融合系统 海量星表融合系统 海量星表融合系统的逻辑过程 开始工作 星表在数据库 中不存在 ? 是 自动入库 星表 继续工作 ? 已存在 是 没有 HTM 索引 是 建 HTM 索引 继续工作 ? 两星表 是否入库并建 索引 ? 交叉证认 继续工作 ? 有索引 是 是否进行 交叉证认 ? 是 是 不进行交叉证认 是 没准备好 是否提取参数 是 提取参数 否 继续工作 ? 是 从数据库中 提取数据

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档