
随着时代的发展,人工智能、机器学习、数据挖掘等技术逐渐普及,各个领域都在尝试使用这些技术与领域内现有知识结合,从而拓展现有的研究。
而气象领域也不例外,通过知网检索“气象 机器学习”关键词,我们可以发现,相关论文发表数量呈现逐年递增状态。在刚过去的2021年,“气象 机器学习”相关论文发表篇数为250篇,已经与2002年“气象 模式”相关论文发表的数量相当(225篇)。可以预见,在不久的将来,机器学习或将成为气象领域另一个热门的研究方向。

知网检索“气象 机器学习”关键词发文量年度趋势图

知网检索“气象 模式”关键词发文量年度趋势图
为了帮助大家更好地入门气象领域的机器学习,我们准备了2套气象机器学习练习赛。
PS:机器学习的比赛,选手根据提供的训练集数据训练模型,而后在测试集数据上进行预测,得出的预测值与真实值进行比较,预测值越接近真实值,名次越高。
· 练习赛一 ·
空气质量预测
知识点:结构化数据处理,特征处理,机器学习基础
推荐人群:入门小白,浅试机器学习全流程
本次比赛以 PM2.5 预测为任务,给出一段时间内某城市的相关气象观测数据及空气污染物数据,建立模型预测一段时间内的 PM2.5 指数。
本次比赛所用到的空气质量数据来自环境保护检测中心网站,气象数据来自美国国家气候数据中心(NCDC),由@王_晓磊 汇总并分享。为了更符合算法比赛的需求,数据做了脱敏处理。
字段
字段 | 数据类型 | 字段说明 | |
|---|---|---|---|
id | int | 数据id(从 1 开始,连续编号) | 无 |
date | str | 观测数据发生的时间 | YYYY-MM-DD HH:mm:ss |
T | float | 温度 | 摄氏度 |
Td | float | 露点温度 | 摄氏度 |
wd | int | 风向 | 度 |
ws | float | 风速 | 米/秒 |
CO | float | CO 浓度 | 毫克/立方米 |
NO2 | float | NO2 浓度 | 微克/立方米 |
O3 | float | O3 浓度 | 微克/立方米 |
PM10 | float | PM10 浓度 | 微克/立方米 |
SO2 | float | SO2 浓度 | 微克/立方米 |
PM2.5 | float | PM2.5 浓度 | 微克/立方米 |
*本次比赛数据集不开放下载
本赛题需要你通过热带气旋属性,建立合理的约束条件或特征识别算法,最终实现西北太平洋热带气旋路径检测。
本赛题给出了 2014 年 7-9 月(台风高发期)的高分辨率气候模式的模拟数据,时间分辨率为 6 小时,空间分辨率为 0.5°,区域为西北太平洋海域(100°E-180°,0°N-60°N)。
其中:
数据来源:高分辨率气候模式数据来自第六次国际耦合模式比较计划(CMIP6)中的 ECMWF-IFS-HR 模式
字段
气候模式输出数据(nc 格式)字段:
字段 | 数据类型 | 字段说明 | |
|---|---|---|---|
time | 字符串 | 时间 | 无 |
plev | 浮点型 | 气压 | Pa |
lat | 浮点型 | 纬度 | ° |
lon | 浮点型 | 经度 | ° |
psl | 浮点型 | 海平面气压 | Pa |
ta | 浮点型 | 气温 | K |
ua | 浮点型 | 经向风 | m/s |
va | 浮点型 | 纬向风 | m/s |
台风数据(csv 格式)字段:
字段 | 数据类型 | 字段说明 | |
|---|---|---|---|
number | 整型 | 台风编号 | 无 |
time | 整型 | 时间 | 无 |
lon(预测字段) | 浮点型 | 台风中心经度 | ° |
lat(预测字段) | 浮点型 | 台风中心纬度 | ° |
pres(预测字段) | 浮点型 | 海平面最低气压 | Pa |
wind(预测字段) | 浮点型 | 850hPa最大风速 | m/s |
* 本次比赛数据集不开放下载