- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
天文学中的数据挖掘张彦霞国家天文台
概要?????必要性概念技术问题展望
天文学、天体物理学、天文统计学、天文学信息学????天文学是研究宇宙空间天体、宇宙的结构和开展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。天体物理学是研究宇宙的物理学,这包括星体的物理性质〔光度、密度、温度、化学成分等等〕和星体与星体彼此之间的相互作用。应用物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起源和许多跟宇宙学相关的问题。天文统计学是用统计学的知识来解决天文问题.天文信息学是用信息技术来解决天文学所面临的各种大数据问题.
Astronomyfacing“dataavalanche”IRAS25m2MASS2mDSSOpticalIRAS100mWENSS92cmNVSS20cmGB6cmROSAT~keVNecessityIstheMotherofInventionDMKDD大数据-巨信息量-全波段天文时代
大型巡天导致天文学步入 一个新的时代 ? ????? 大多数数据大的人们无法看 这就需要存储技术、网络技术、数据库相关技术和标准等许多知识被数据的复杂性所掩盖而难以获得大多(不是所有的)经验关系是建立在3维参数空间根底上的,如椭圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?大局部数据人们是无法直接理解的这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能/机器帮助的发现数据挖掘是帮助和加速科学发现过程的利器
●大数据●机器学习●可视化●云效劳Credit:TonyHey
天文数据的特点??????????空间性多波段性海量性非线性异构性缺值性或坏标记分布性高维性时序性开放性
海量数据???NVO(IVOA)注册的数据资源有~14,000一些大型的天文数据库包括NASA空间天文工程已经完成或正在进行的大型天文巡天工程,如: ?MACHO和相关的暗物质巡天:~1TB ?DPOSS:3TB ?2MASS:10TB ?GALEX:30TB?SDSS:40TB??将来的巨型巡天工程,如: ?PanSTARRS:每晚10TB,,预计最终40PB ?SKA:2020年中期运行,每天约0.5-10PBLSST(LargeSynopticSurveyTelescope): ?2020开始运行,with3-Gigapixelcamera ?每30秒10GB ?每晚30TB,持续十年 ?预计最终的图像数据100PB ?预计最终的星表数据30PB ?每三晚巡全天一次:制作天体的电影
数据的大小和增长速度都在持续增长??人类基因序列由约三十亿个碱基对组成。存储要求:约750兆??15亿个传感器每秒传输四千万次数据流:约每秒700MB,约每天15PB?来自34个国家的1000名科学家参与该工程???成千上万的小型天线阵分布在三千多米范围内数据流:约每秒60GB,一天一百万PBSKA超级计算机约1亿台,每秒要执行1018次操作
天文数据的常用类型?????光谱数据图像数据星表数据时序数据模拟数据
星系的图像和光谱、恒星和气体的光谱 早型星 晚型星 气体气体星系
天文学:数据驱动的科学
天文学:是发现驱动的科学?驱动发现的因素:?????–新问题–新的思想–新模型–新理论–更重要的是新数据!
天文学:是发现驱动的科学?发现导致:?–新的问题?–新思想?–新模型?–新理论?–更重要的是...更多的新数据!?因此,需要更有效的挖掘和分析算法或工具
天文学家一直在从事数据挖掘“Thedataaremine,andyoucan’thavethem!”?严格意义上讲...?天文学家喜欢对事物进行分类...(监督学习.如,分类)?天文学家喜欢对事物归类...(非监督学习.如,聚类)?天文学家更希望发现新的天体或现象...(半监督学习.如,离群探测)
天文中的数据挖掘课题
????过去:100到1000个独立的分布的异构数据/元数据/信息库.目前:天文数据可以从融合的分布资源中获得,如虚拟天文台.将来:随着大型巡天工程的开展,天文学在未来将越来越成为数据密集型的科学.挑战:越来越难于将数据传输到用户…算法移植到数据!天文学研究的转变
科学研究的四个阶段????第一范式 实验或测量
文档评论(0)