Probabilidades en modelos predictivos deportivos: cómo leerlas sin errar

Cuando un analista dice que el Real Madrid tiene "62% de probabilidad de ganar este partido", ¿qué significa exactamente ese número? ¿De dónde sale? ¿Qué confianza merece? Este artículo explica cómo los modelos predictivos deportivos calculan probabilidades, qué limitaciones tienen, y cómo interpretarlas sin caer en dos errores opuestos: tomarlas como certezas o descartarlas como opiniones.

¿Qué es una probabilidad en un modelo deportivo?

Una probabilidad es la estimación cuantitativa de la posibilidad de que un evento ocurra, expresada en una escala de 0 a 1 (o de 0% a 100%). Un modelo que asigna 62% de probabilidad a la victoria del Real Madrid no está diciendo "el Real Madrid ganará". Está diciendo: "si este partido se jugara 100 veces con estas mismas condiciones, esperaría que el Real Madrid ganara alrededor de 62 veces".

Esto es clave: una probabilidad no es un pronóstico binario. Es una distribución. El equipo con 62% de probabilidad todavía pierde 38 de cada 100 veces. Cuando un evento con 20% de probabilidad ocurre, el modelo no estaba "equivocado": 1 de cada 5 veces, ese es exactamente el resultado esperado.

Cómo se calculan las probabilidades en fútbol

Los modelos más comunes de probabilidad en fútbol combinan varias capas:

Capa 1 — Fuerza base de los equipos

Cada equipo recibe una valoración numérica basada en su historia reciente. Los sistemas Elo (adaptados del ajedrez) son de los más usados: cada victoria sube la puntuación, cada derrota la baja, con ajustes por la calidad del rival. Equipos con Elo alto son, por definición, más difíciles de vencer.

Capa 2 — Goles esperados y distribución Poisson

Para cada partido, el modelo estima un lambda (λ) ofensivo para cada equipo: el promedio esperado de goles que marcará. Este λ se calcula combinando:

Fuerza ofensiva del equipo (goles por partido promedio)
Debilidad defensiva del rival (goles concedidos por partido)
Factor localía (peso que varía por liga: ~1.15 en la mayoría de las ligas top europeas)
Ajuste por forma reciente (últimos cinco a diez partidos)

Con esos λ, el modelo aplica una distribución de Poisson para calcular la probabilidad de cada marcador posible: 0-0, 1-0, 0-1, 2-1, etcétera. Sumando los marcadores donde un equipo gana, obtiene la probabilidad de victoria de ese equipo.

// ejemplo simplificado

λ Local (Monterrey) 1.84 goles esperados

λ Visitante (América) 1.12 goles esperados

Probabilidad victoria local ~58%

Probabilidad empate ~24%

Probabilidad victoria visitante ~18%

Capa 3 — Ajustes contextuales

Los modelos más sofisticados añaden variables adicionales: lesiones de jugadores clave, días de descanso entre partidos, distancia de viaje, clima, importancia relativa del partido (liga vs copa), y arbitraje. Cada variable añade precisión, pero también complejidad. Un buen modelo sabe cuándo añadir y cuándo simplificar.

Cómo se calculan las probabilidades en béisbol

El béisbol usa aproximaciones distintas porque su estructura es distinta: no hay empate, la dinámica es por entradas, y los enfrentamientos individuales (bateador vs lanzador) pesan enormemente en cada resultado.

Los modelos de béisbol suelen calcular probabilidades partido-a-partido combinando:

Run expectancy: cuántas carreras espera anotar cada equipo basado en su ofensiva vs el lanzador rival
Matchup bateador-lanzador: historial y compatibilidad de tipos (bateador zurdo vs lanzador derecho, etc.)
Factor parque: algunos estadios son pro-bateadores, otros pro-lanzadores
Bullpen: el estado del cuerpo de relevistas afecta significativamente el desenlace del juego

Para predecir resultados de postemporada, los modelos corren simulaciones Monte Carlo: miles o millones de repeticiones virtuales de cada serie para obtener distribuciones probabilísticas completas.

Las limitaciones reales de los modelos

Ningún modelo captura el deporte completo. Las limitaciones más importantes son:

1. Información incompleta

Los modelos se basan en datos observables. No pueden incorporar lesiones que no se han reportado, conflictos internos en el vestidor, motivación atípica o decisiones tácticas sorpresivas. Hay variables reales que influyen en el resultado y que quedan fuera del modelo por definición.

2. Regresión hacia la media

Los equipos que rinden anormalmente bien o mal en períodos cortos suelen regresar al promedio. Los modelos que ponderan demasiado la forma reciente pueden ser engañados por rachas temporales; los que ponderan demasiado el histórico pueden ignorar cambios estructurales reales (nuevo entrenador, fichajes importantes, etc.).

3. Eventos raros

Los modelos construidos con datos históricos tienden a subestimar la probabilidad de eventos muy raros. Resultados sorprendentes ocurren con más frecuencia de lo que los modelos predicen, especialmente en deportes con alta varianza como el fútbol y el béisbol.

4. Intervalos de confianza

Un modelo honesto no da un solo número. Da un rango. Si alguien te presenta una probabilidad sin intervalo de confianza, está simplificando. "62% con un intervalo del 55-68%" es más útil que "62%" a secas.

Cómo leer las probabilidades sin errar

Tres reglas prácticas para interpretar cualquier probabilidad deportiva:

Regla 1: una probabilidad del 70% no es un hecho consumado. El 30% restante ocurre con frecuencia real.

Regla 2: las probabilidades ganan valor cuando son comparadas entre sí, no cuando se toman aisladas. Lo interesante no es que el Madrid tenga 62%, sino que el Barcelona tenga 18% y el empate 20%.

Regla 3: las muestras pequeñas engañan. Un modelo acertando "9 de 10" no significa que sea bueno; podría ser suerte estadística. La calidad de un modelo se evalúa con cientos de predicciones, no con docenas.

Los modelos como herramienta, no como oráculo

El valor real de los modelos predictivos no está en "adivinar resultados". Está en ofrecer una estructura cuantitativa para analizar deportes: separar lo que es probable de lo que es poco probable, cuantificar la confianza con la que se hace una afirmación, e identificar cuándo un resultado sorpresivo es anomalía estadística y cuándo es señal de un cambio estructural en algún equipo.

Los analistas serios —los que escriben en The Athletic, FiveThirtyEight, Opta o los departamentos de datos de los clubes— no usan modelos para predecir ganadores. Los usan para entender el juego con más profundidad. Esa es, también, la filosofía de este portal.

Nota editorial. Este artículo explica los fundamentos de los modelos predictivos deportivos con un nivel introductorio. Los modelos reales usados en la industria (clubes profesionales, medios especializados, departamentos de analytics) incorporan más variables y técnicas de ajuste de las descritas aquí, pero los principios básicos son los mismos.