机器学习在气象领域的应用 .pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习在⽓象领域的应⽤

近⼏年关于⼈⼯智能,机器学习,数据挖掘的新闻数不胜数,其中包含多少媒体炒作,⼜存在

多⼤的泡沫尚不可说。抛开这些,各个领域都在试图利⽤⼈⼯智能,机器学习,数据挖掘技术

拓展业务。先来说说究竟什么是⼈⼯智能,机器学习,数据挖掘?

所谓数据挖掘简单的来说就是利⽤统计学⽅法从⼤量的数据中寻找规律,找到隐藏在数据中的

模型,并利⽤找到的模型解释⼀些现象,⽽机器学习是利⽤数据挖掘技术或者其他算法构建隐

藏在数据中的模型并⽤于预测(⽐如Kaggle上泰坦尼克号⽣存练习赛就是从数据中获取规律并预

测乘客⽣存的可能性)。⼈⼯智能是利⽤机器学习构建的模型或者其他⽅法来模拟或者扩展⼈的

智能的理论,简单的来说就是利⽤更好的算法为⼈类服务。

关于这些概念不做过多解释,主要讲⼀下⽬前⼈⼯智能,机器学习和数据挖掘在⽓象领域的应

⽤。相信很多听过机器学习的⽓象⼈都想过机器学习是否可以⽤来预测天⽓。关于这个问题

Quora上也有很多⼈在讨论,机器学习所适⽤的场景以及天⽓预报所涉及到的复杂物理机制就限

制了机器学习在预测天⽓⽅⾯的应⽤。虽然机器学习可能⽆法在预测天⽓⽅⾯取得很⼤成就,

但是机器学习还是可以在⽓象领域发挥作⽤。

机器学习在⽓候领域的应⽤

由于极端天⽓事件对⽣态系统、基础设施和⼈类健康有着巨⼤的潜在风险。基于卫星和⽓象站

的观测记录来分析极端天⽓,以及在未来⽓候条件的模拟中描述极端天⽓变化是⼀项⾮常重要

的任务。通常⽓象界是通过⼿⼯编码、多变量阈值条件来指定模式标准。这种标准多是主观

的,⽓象界通常对于应该使⽤的具体算法很少有⼀致的意见。⽬前已有⼀些研究砸开探索完全

不同的模型,通过训练⼀个基于⼈类真实标注数据的深度学习系统来学习模式分类器。⾸先考

虑以热带⽓旋和⼤⽓河流为中⼼的剪切图⽚集的监督分类问题。基于5000-10000个剪切图像,

并通过在Speamint中进⾏超参数调优来训练了⼀个Caffe中的⾹草卷积神经⽹络。最终发现监督

分类任务可以获得90%-99%的分类准确度。下⼀步就是考虑⽤⼀个统⼀的⽹络对多种类型模型

(热带⽓旋、⼤⽓河流、超热带⽓旋等)同时进⾏模式分类,并利⽤包围盒来定位这些模式。

这是对这个问题⼀个更⾼级的半监督的思路。当前研究所使⽤的⽹络如图1所⽰。

图1⽓候模式定位及分类半监督⽹络结构

图2显⽰了通过半监督架构获得的⼀些⽰例结果。虽然对架构的进⼀步调整还正在进⾏中,但是

底层群集的t-SNE图显⽰了该⽅法有能⼒在数据集中发现新的相⼲流体流量结构。⽬前的架构运

⾏在⽓象数据的即时快照上,我们正在扩展模型以包含时间来得到更精确的预测。

图2天⽓模式及其位置⽰例,红⾊为深度学习预测结果,绿⾊为实际情况

机器学习在数据同化⽅⾯的应⽤

数据同化对⽓象数值模式的预测来说具有⾮常重要的意义。数据同化的⽬的是为了利⽤短期预

报结果和实际观测资料确定最佳的⼤⽓初始状态。数据同化是⼀个连续的时步过程,⾸先根据

⼀个⼤⽓初始状态进⾏天⽓预测,然后将预测结果和必威体育精装版的观测结果进⾏对⽐,然后根据对⽐

结果更新模式状态,利⽤更新后的⼤⽓状态进⾏新的预测,按照上述过程不断的迭代。在过去

⼏⼗年间,卡尔曼滤波⼀直是⽐较常⽤的数据同化⽅法,近些年集合卡尔曼滤波也开始应⽤于

业务,还有扩展卡尔曼滤波⽅法(但是并没有⽤于业务)。虽然卡尔曼滤波和集合卡尔曼滤波⾮常

受欢迎,但是这并不是最优的选择,尤其是对于恰当的⼤⽓模型的先验性上,⽽且当数据量增

⼤时其效率并不⾼。鉴于机器学习进⾏动态系统预测时不依赖于底层的物理模型⽽且关于数据

和误差的属性可以进⾏最⼩估计,因此⽬前正在试图利⽤机器学习和核⽅法寻找可能的⾼效率

⽅法替代集合卡尔曼滤波法。

⽬前已有的⼀些研究中利⽤机器学习算法和集合卡尔曼滤波进⾏了对⽐。当集合卡尔曼滤波使

⽤较少的ensembles时(20个ensembles),机器学习算法的效果要优于集合卡尔曼滤波,但是当

集合卡尔曼滤波使⽤⼤量的ensembles时(100个ensembles),机器学习⽅法的效果相对较差。

虽然研究中提到机器学习⽅法对内存及时间的消耗相对集合卡尔曼滤波来说减少了60%左右,

但是并没有给出每⼀次测试的具体时间对⽐。⽽且相对于可靠的预测来说,对内存以及时间的

消耗如果在允许的范围内的话,当然是选择准确率更⾼的⽅法。研究者提到后续的研究将进⾏

机器学习⽅法和四维变分法进⾏对⽐。

图3机器学习算法和不同ensembles的集合卡尔曼滤波同化结果对⽐

作为数据同化技术先驱的ECMWF

文档评论(0)

知行合一 + 关注
实名认证
文档贡献者

喜欢音乐

1亿VIP精品文档

相关文档