Récords meteorológicos en juego: IA vs. pronóstico numérico; ¿quién acierta cuando el tiempo supera los límites?

Analizamos los resultado de un estudio que comparó modelos de IA y el sistema numérico ECMWF-HRES en la predicción de récords de calor, frío y viento, y muestra por qué los resultados son importantes para las alertas, la planificación y las decisiones cotidianas.

IA, AI, modelos
Los modelos numéricos y la inteligencia artificial compiten por quién predice mejor los extremos.

Olas de calor históricas, olas de frío intenso y vientos extremos están alterando las rutinas, ejerciendo presión sobre los sistemas eléctricos y poniendo vidas en riesgo. Con el auge de los modelos de predicción meteorológica basados en Inteligencia Artificial (IA), ha surgido una pregunta crucial para quienes toman las decisiones: cuando el clima supera lo ya visto, ¿quién puede predecir mejor lo que se avecina?

Un estudio reciente comparó modelos de IA ampliamente publicitados (como GraphCast, Pangu-Weather y Fuxi) con un sistema de referencia numérico: el HRES, del Centro Europeo de Previsiones Meteorológicas a Medio Plazo (ECMWF).

Utilizando el conjunto de reanálisis ERA5 y el benchmark abierto WeatherBench 2, los autores evaluaron años con muchos extremos (2018 y 2020) para medir quién acierta cuando el clima bate récords. El resultado llama la atención: la IA funciona bien en general, pero se queda corta precisamente en los eventos sin precedentes.

Cómo se hizo la comparación

La evaluación se centró en eventos récord: calor, frío y viento que superaron los máximos o mínimos históricos en cada punto del planeta, mes a mes. En lugar de analizar únicamente los promedios globales, el estudio mapeó dónde y cuándo 2018 y 2020 superaron el pasado, creando una prueba rigurosa, pero práctica, de lo que realmente importa en las alertas.

IA, clima, extremos
La disputa entre la inteligencia artificial y la ciencia tradicional cobra relevancia precisamente cuando la naturaleza impone récords climáticos sin precedentes.

Para cada horizonte de pronóstico (desde unas pocas horas hasta varios días), se compararon los pronósticos de los modelos de IA con los de HRES. La verificación utilizó ERA5 y los productos propios de HRES como referencia, midiendo no solo el error promedio, sino también el sesgo (si el pronóstico tiende a ser más cálido o más frío), la capacidad de detectar la ocurrencia de un récord y la precisión con la que cada sistema clasifica la probabilidad de un evento extremo.

Lo que muestran los resultados

En eventos cotidianos, sin un enfoque en batir récords, las IA suelen igualar, e incluso superar, el rendimiento de HRES en variables como la temperatura a 2 m y el viento. Sin embargo, cuando el filtro es estricto (solo en el caso de batir récords), HRES mantiene una ventaja constante, especialmente en los plazos cortos, cruciales para la defensa civil y las operaciones de la red eléctrica. La diferencia se reduce con plazos más largos, pero no desaparece.

Estos fueron los principales hallazgos.

  • Las IA subestiman la intensidad del calor récord y sobreestiman la del frío récord.
  • Cuanto mayor sea el récord, mayores tienden a ser los errores de la IA.
  • Las IA detectan menos ocurrencias de registros (más “falsos negativos”).
  • HRES tiene un sesgo menor y un mejor equilibrio entre aciertos y falsas alarmas.
IA, clima, extremos, calor, frío
Los récords climáticos ponen de manifiesto tanto los avances como las limitaciones de las previsiones. Es en este escenario donde la inteligencia artificial y la ciencia tradicional se enfrentan.

Esta imagen se repite en diferentes estaciones y zonas climáticas, lo que refuerza las conclusiones. Además, las comprobaciones alternativas, como las métricas que evitan favorecer a quienes "adivina" valores extremos, mantienen la misma imagen general: en las situaciones de mayor preocupación, el pronóstico numérico del ECMWF resulta más efectivo.

Impacto y próximos pasos

Para el público, el mensaje es simple: los modelos de IA ya son excelentes para muchas tareas, pero actualmente no deberían usarse solo para alertas de alto riesgo. Para los gobiernos municipales, la defensa civil, la atención médica, la agricultura y la energía, la estrategia más segura es combinar la velocidad y el detalle espacial de los sistemas de IA con la consistencia física y la fiabilidad de los modelos numéricos operativos.

El estudio refuerza un camino pragmático: ampliar el uso de IA como socios, no sustitutos, de los centros operativos, incentivar benchmarks abiertos (como WeatherBench 2) e invertir en validaciones transparentes, centradas precisamente en eventos que estresan el sistema.

En un escenario en el que los extremos son cada vez más frecuentes, acertar lo «raro» deja de ser un lujo y se convierte en una exigencia. Hasta entonces, el mensaje es claro: IA + NWP en paralelo, con una verificación rigurosa, ahorra tiempo, recursos y vidas.

Referencia de la noticia

Numerical models outperform AI weather forecasts of record-breaking extremes. 21 de agosto, 2025. Zhang, Z. et. al.