Mundial 2026 · Laboratorio de sesgos de IA

El Objetivo

Medir el sesgo de los LLMs al predecir con el mismo input.

El resultado

El ganador del Mundial

Mismo input, distintas IAs: medimos cuánto cambia la predicción según el modelo que elijas. Y con una simulación completa (grupos con reglas FIFA y eliminatorias con el cuadro oficial) calculamos quién levanta la copa.

48

selecciones · 12 grupos

10

modelos por grupo

El experimento

Dos ejes: el dato y el modelo

Evaluamos cada predicción en dos ejes a la vez para separar dos efectos que casi siempre se confunden.

El eje del dato (input) cambia qué información recibe el modelo (histórico, forma reciente o dinero) manteniendo el motor fijo. El eje del modelo (LLM) cambia quién razona: GPT, Claude o Gemini, cada uno con su propio entrenamiento y contexto, manteniendo el dato fijo. Cruzar ambos nos deja medir, por separado, cuánto pesa lo que le das y cuánto pesa la IA que eliges.

Pregunta 1

Mismo modelo, datos distintos

A un mismo modelo le damos datos de entrada diferentes. ¿Cambia su predicción… o repite lo que ya «creía saber»?

Pregunta 2

Mismo dato, modelos distintos

A varios LLMs, que ya arrastran su entrenamiento y su contexto, les damos exactamente el mismo dato. ¿Coinciden o discrepan, y por qué?

Para responderlo construimos una matriz dividida en esos dos ejes (dato y modelo). Cada celda es una hipótesis viva: medimos la probabilidad que asigna a un evento (goles, ganador) y, jornada a jornada, la contrastamos con la realidad. Así validamos dos cosas:

1

La importancia del dato de entrada

Cuánto cambia el resultado solo por cambiar lo que alimenta al modelo.

2

Los sesgos de cada modelo

Qué inclinación arrastra cada IA por cómo fue entrenada, aun recibiendo el mismo dato.

receta:
Fase

Ruta al título

Cruces oficiales · simulación completa

Ruta al título · Monte Carlo · receta Hype

camino más probable · pulsa un equipo para ver su grupo

Campeón

FRA

Francia

19%

Final

FRAFRAvsARGARG
Probabilidad de clasificar a 1/16 · Monte Carlo · receta Hype
1ESPEspañaGrupo H100%
2GERAlemaniaGrupo E100%
3BELBélgicaGrupo G100%
4FRAFranciaGrupo I100%
5ENGInglaterraGrupo L100%
6ARGArgentinaGrupo J100%
7BRABrasilGrupo C99%
8CROCroaciaGrupo L98%
9NEDPaíses BajosGrupo F98%
10URUUruguayGrupo H97%
11PORPortugalGrupo K97%
12SUISuizaGrupo B95%

Simulación con desempates FIFA (enfrentamiento directo, luego DG/GF, luego ranking FIFA), los 8 mejores terceros y los cruces oficiales de 1/16.

Grupo

Detalle · Grupo A

MEXMéxico73%KORCorea del Sur55%CZERepública Checa50%RSASudáfrica22%

Pregunta 1 · el dato

Calculado

Mismo motor (Monte Carlo), distinta receta.

Modelo \ Equipo
MEXMEX
RSARSA
KORKOR
CZECZE

Tradición

sesgo: tradición

80%
16%
59%
45%

Hype

sesgo: popularidad / lo que suena

80%
14%
60%
46%

Ajustado

sesgo: condiciones reales

96%
24%
55%
25%

Azar

sesgo: aleatoriedad controlada

50%
50%
51%
49%
Probabilidad de clasificar (top 2 del grupo)0%100%

Pregunta 2 · el modelo

IA real

Mismo dato (anclas Hype/Ajustado), distinta IA.

Modelo \ Equipo
MEXMEX
RSARSA
KORKOR
CZECZE

GPT · Hype

sesgo: popularidad / hype

70%
25%
52%
54%

Claude · Hype

sesgo: prudencia / consenso

71%
16%
58%
55%

Gemini · Hype

sesgo: recencia mediática

75%
5%
50%
70%

GPT · Ajustado

sesgo: popularidad / hype

68%
31%
52%
50%

Claude · Ajustado

sesgo: prudencia / consenso

71%
17%
57%
55%

Gemini · Ajustado

sesgo: recencia mediática

71%
24%
54%
51%
Probabilidad de clasificar (top 2 del grupo)0%100%

Hype → Ajustado

¿Quién hace caso a la realidad?

El cambio al pasar de Hype a Ajustado, es decir, lo que mueve meter altitud, clima y cansancio por viaje. Monte Carlo es la referencia porque aplica la penalización siempre. Una IA que escucha el dato se le parece; una que recita su prior se queda plana (gris). Naranja = baja, morado = sube.

Motor \ Equipo
MEXMEX
RSARSA
KORKOR
CZECZE
Penalización real
Monte Carlo
+16pp
+10pp
-5pp
-21pp
GPT
-2pp
+6pp
0
-4pp
Claude
0
+1pp
-1pp
0
Gemini
-4pp
+19pp
+4pp
-19pp

A República Checa, que juega en altura, la realidad le pasa factura: Monte Carlo le quita 21 puntos al pasar de Hype a Ajustado. Aun así, Claude apenas reacciona (0pp), mientras Gemini sí lo penaliza (-19pp). Mismo dato, lecturas opuestas.

El caso más disputado del grupo es México: los modelos van de extremo a extremo (46% de diferencia).

Hallazgo

¿De dónde viene la discrepancia?

Descomposición del bloque factorial 4×2 (Monte Carlo + 3 LLMs × Hype/Ajustado) para este grupo.

Datos · 23%Modelo · 77%

El 23% de la divergencia viene de los datos que le das al modelo; el 77%, del modelo que eliges.

¿Escucha el LLM los datos?

Cuánto cambia su predicción al pasar de Hype a Ajustado. Bajo = ignora el input (altitud, clima y cansancio) y recita su prior.

  • GPT3 pp
  • Claude1 pp
  • Gemini12 pp

Claude apenas mueve su predicción al cambiarle los datos: pesa más lo que ya «cree saber» que lo que le mostramos.

Sorpresas

Caballos negros

Selecciones calientes en forma reciente a las que la simulación NO da como favoritas para clasificar a 1/16. Candidatas a dar la campanada.

JOR

Jordania

Grupo J

Forma reciente altasolo 13% de clasificar a 1/16
COD

RD Congo

Grupo K

Forma reciente altasolo 53% de clasificar a 1/16
IRQ

Irak

Grupo I

Forma reciente altasolo 9% de clasificar a 1/16
UZB

Uzbekistán

Grupo K

Forma reciente altasolo 33% de clasificar a 1/16
PAN

Panamá

Grupo L

Forma reciente altasolo 43% de clasificar a 1/16
AUS

Australia

Grupo D

Forma reciente altasolo 59% de clasificar a 1/16

Calculado con la forma reciente del equipo frente a la probabilidad de la simulación completa.

Cómo funciona

Dos ejes, diez celdas

Monte Carlo no se entrena: es el motor que simula cada grupo miles de veces. Lo que cambia entre celdas son los datos (receta) y el modelo (motor).

Eje datos

4 recetas

Qué le damos de comer al modelo. Cada receta induce su propio sesgo.

  • Tradiciónsesgo: tradición

    histórico de mundiales · ranking FIFA

    Favorece a las potencias históricas.

  • Hypesesgo: popularidad / lo que suena

    forma últimos 12 meses · valor de mercado · fama (ranking + histórico)

    Lo que pesaría cualquiera sin mirar restricciones: forma reciente, dinero y fama. Coincide con lo que un LLM ya cree.

  • Ajustadosesgo: condiciones reales

    lo del Hype · penalización por altitud · penalización por clima · penalización por cansancio (viaje)

    El Hype bajado a la realidad: penaliza por la altitud, el clima y el cansancio por viaje (distancia entre sedes y descanso) donde juega cada equipo.

  • Azarsesgo: aleatoriedad controlada

    ninguno

    Línea base: todos los equipos con la misma fuerza. Mide cuánto le ganan las otras recetas a la pura suerte.

¿«Azar controlado»? El azar no es total: con todos los equipos igual de fuertes, Monte Carlo solo deja al azar el marcador de cada partido, dentro del calendario y las reglas reales del grupo. No es caos: es el suelo contra el que medimos cuánto aportan las recetas con criterio.

Eje modelo

4 motores

Cómo se procesan los datos. Monte Carlo es el motor estadístico; los otros tres son LLMs.

  • Monte Carloestadístico

    sesgo: ninguno (motor neutro)

  • GPTLLM

    sesgo: popularidad / hype

  • ClaudeLLM

    sesgo: prudencia / consenso

  • GeminiLLM

    sesgo: recencia mediática

10 celdas: las 4 recetas sobre Monte Carlo (eje datos) + las 2 anclas (Hype y Ajustado) pasadas por los 3 LLMs (eje modelo). Se cruzan en un bloque factorial 4×2. A cada LLM se le pasan solo las variables de la receta y se le pide las mismas probabilidades (la pregunta exacta, en Metodología).

Marcador

¿Qué modelo acierta más?

Lo medimos jornada a jornada con el Brier score frente a los resultados reales.

Marcador en espera

La fase de grupos arranca el 11 de junio de 2026. A partir de cada jornada puntuaremos cada modelo con el Brier score (cuánto se acerca su probabilidad al resultado real) y verás aquí qué receta y qué motor aciertan más. Las predicciones quedan registradas con fecha: no se reescriben.

Metodología

Cómo lo hacemos, paso a paso

El fútbol es el banco de pruebas. Lo que medimos de verdad es cómo el dato y el modelo moldean una predicción de IA, y cuánto se equivocan frente a la realidad.

01

La hipótesis

No predecimos un ganador. Aislamos y medimos dos fuerzas que mueven cualquier predicción de IA: el dato que le das y el modelo que usas.

02

Los dos ejes

Eje dato: misma maquinaria, distinta información (4 recetas). Eje modelo: misma información, distinta IA (3 LLMs). Se cruzan en una matriz de 10 celdas (bloque factorial 4×2 + 2 columnas de contexto).

03

El motor: Monte Carlo

Convierte «fuerza de equipo» en «probabilidad de clasificar» simulando cada grupo 20.000 veces con sus partidos y desempates reales. No está entrenado ni tiene opinión: por eso es la referencia neutra contra la que medimos el sesgo. Solo se calibra el modelo de partido (Poisson de goles), no el simulador.

04

Las recetas (sesgo del dato)

Tradición (histórico + FIFA), Hype (forma + dinero + fama, lo que pesaría cualquiera) y Ajustado (el Hype penalizado por la altitud, el clima y el cansancio por viaje de las sedes), más Azar (línea base). Cambiar de receta sobre el mismo motor neutro muestra cuánto pesa el dato de entrada.

05

Los LLMs (sesgo del modelo)

A GPT, Claude y Gemini les damos el mismo dato (doble ancla: Hype y Ajustado). La diferencia entre su respuesta y la de Monte Carlo sobre ese mismo dato es su sesgo. Y al pasar de Hype a Ajustado comprobamos si el LLM escucha los datos (altitud, clima, cansancio) o recita su prior.

06

Validación con la realidad

Medimos probabilidades (clasificar, ganar, goles), nunca certezas. Las publicamos con fecha (preregistro) y, jornada a jornada, las puntuamos con el Brier score frente al resultado real. Eso ordena el marcador.

La pregunta al LLM

Misma pregunta para todos; solo cambia el dato

A GPT, Claude y Gemini les damos un único prompt con las variables de la receta ancla (Hype o Ajustado) y les pedimos lo mismo que calcula Monte Carlo. De ahí sacamos tres lecturas:

  1. 1 · La predicción. Por equipo: probabilidad de clasificar, de ganar el grupo y goles esperados. Es lo que llena la matriz.
  2. 2 · El factor principal. En una frase, qué variable pesó más, para contrastar lo que dice con lo que hace.
  3. 3 · ¿Escucha los datos? La misma pregunta con Hype y luego con Ajustado: si la respuesta apenas cambia, está ignorando el input (altitud, clima, cansancio) y recitando su prior.

Prompt real que se envía (ejemplo · Grupo H · receta Ajustado):

Grupo H del Mundial 2026. Equipos: España (ESP), Cabo Verde (CPV), Arabia Saudí (KSA), Uruguay (URU).
Formato: todos contra todos (cada equipo juega 3 partidos). Clasifican los 2 primeros.

Datos disponibles para la receta "Ajustado" (sesgo: condiciones reales):
  • ESP: forma_12m=2.4 pts/partido, valor=1270M€, ranking_FIFA=1876.4, pedigri_mundialista=25/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.54/1 (mayor = condiciones de sede/viaje peores)
  • CPV: forma_12m=1.36 pts/partido, valor=56.38M€, ranking_FIFA=1366.13, pedigri_mundialista=0/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.53/1 (mayor = condiciones de sede/viaje peores)
  • KSA: forma_12m=1.33 pts/partido, valor=27.63M€, ranking_FIFA=1421.43, pedigri_mundialista=4/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.44/1 (mayor = condiciones de sede/viaje peores)
  • URU: forma_12m=1.6 pts/partido, valor=363M€, ranking_FIFA=1673.07, pedigri_mundialista=39/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.55/1 (mayor = condiciones de sede/viaje peores)

Para CADA equipo, basándote ÚNICAMENTE en estos datos, estima estos valores:
  • qualify: probabilidad de clasificar (1.º o 2.º), entre 0 y 1
  • win: probabilidad de ganar el grupo (1.º), entre 0 y 1
  • goalsFor: goles esperados a favor en sus 3 partidos
  • factorPrincipal: en pocas palabras, qué variable ha pesado más

Reglas: la suma de "qualify" de los 4 equipos vale 2.00; la suma de "win" vale 1.00.
Devuelve SOLO este JSON, sin texto adicional:
{"teams":[{"team":"XXX","qualify":0.00,"win":0.00,"goalsFor":0.0,"factorPrincipal":"..."}]}

Reglas clave: solo con esos datos · probabilidades, nunca un ganador único · sumas forzadas (Σ clasificar = 2,00 · Σ ganar = 1,00) para poder compararlo con Monte Carlo · salida en JSON.

Cómo llamamos a los modelos

Modelos de fábrica, sin trucos

Llamamos a GPT, Claude y Gemini por su API estándar, con el modelo tal cual: sin fine-tuning, sin RAG ni búsqueda y sin herramientas. Les pasamos un único prompt con las variables de la receta y la pregunta. Los únicos ajustes son técnicos: bajamos la temperatura (solo para que las respuestas congeladas sean reproducibles) y pedimos la salida en JSON para poder leerla. Les pedimos que usen solo el dato que les damos, pero a un LLM no se le puede impedir tirar de lo que aprendió en su preentrenamiento, y comprobar justo eso, si escucha el dato o recita su prior, es el experimento. Reproducimos lo que obtendría cualquiera que use estos modelos para predecir, sin ingeniería de por medio.

Bajo el capó

  • Modelos reales: GPT-4.1, Claude Sonnet 4.5 y Gemini 2.5 Pro, congelados con fecha (preregistro) para que las cifras no cambien entre visitas.
  • Cada IA decide todas las fases: predice los partidos de grupo y cada cruce de eliminatoria.
  • Desempates FIFA: puntos, luego enfrentamiento directo, luego DG/GF global y ranking FIFA.
  • Cuadro oficial: top 2 de cada grupo más los 8 mejores terceros, con los cruces reales de 1/16.

¿Hablas data?

Todo modelo tiene sesgos. Incluso en el fútbol, ¿los conoces?

Estos sesgos también viven en tu negocio. Tradición, recencia, hype... los mismos que hacen discrepar a estos modelos están en el que usas para forecasting, scoring de clientes o previsión de demanda. En Hubler los auditamos y te decimos cuál domina el tuyo y cuánto te cuesta.