Mundial 2026 · Laboratorio de sesgos de IA

El Objetivo

Medir el sesgo de los LLMs al predecir con el mismo input.

El resultado

El ganador del Mundial

Mismo input, distintas IAs: medimos cuánto cambia la predicción según el modelo que elijas. Y con una simulación completa (grupos con reglas FIFA y eliminatorias con el cuadro oficial) calculamos quién levanta la copa.

selecciones · 12 grupos

modelos por grupo

El experimento

Dos ejes: el dato y el modelo

Evaluamos cada predicción en dos ejes a la vez para separar dos efectos que casi siempre se confunden.

El eje del dato (input) cambia qué información recibe el modelo (un dato real con sentido o uno sin relación con el fútbol) manteniendo el motor fijo. El eje del modelo (LLM) cambia quién razona: GPT, Claude o Gemini, cada uno con su propio entrenamiento y contexto, manteniendo el dato fijo. Cruzar ambos nos deja medir, por separado, cuánto pesa lo que le das y cuánto pesa la IA que eliges.

Pregunta 1

Mismo modelo, datos distintos

A un mismo modelo de referencia, neutro y sin favoritos (Monte Carlo, que no opina: solo simula los partidos), le cambiamos los datos de entrada. Si su pronóstico se mueve, es por el dato y por nada más.

Pregunta 2

Mismo dato, modelos distintos

A varios LLMs, que ya arrastran su entrenamiento y su contexto, les damos exactamente el mismo dato. ¿Coinciden o discrepan, y por qué?

Para responderlo construimos una matriz dividida en esos dos ejes (dato y modelo). Cada celda es una hipótesis viva: medimos la probabilidad que asigna a un evento (goles, ganador) y, jornada a jornada, la contrastamos con la realidad. Así validamos dos cosas:

La importancia del dato de entrada

Cuánto cambia el resultado solo por cambiar lo que alimenta al modelo.

Los sesgos de cada modelo

Qué inclinación arrastra cada IA por cómo fue entrenada, aun recibiendo el mismo dato.

Las recetas

Qué datos le damos a cada motor

Cada receta alimenta al modelo con información distinta, y eso cambia a quién ve como favorito. Monte Carlo las juega todas; a las IAs les damos dos: un dato real con sentido y otro sin relación con el fútbol, para ver si distinguen la señal del ruido.

A GPT, Claude y Gemini les damos dos recetas: una con un dato real con sentido (Tradición: ranking FIFA y palmarés) y otra con un dato sin relación con el fútbol (Control: densidad de población y edad media). Si lo ignoran, recitan su prior; si lo siguen igual que el dato real, se dejan llevar por un dato que no significa nada.

El dato real

Tradición

Un dato con sentido futbolístico: el ranking FIFA y lo que cada selección ha hecho en los mundiales.

El dato de Control

Control

Datos reales pero sin ninguna relación con el fútbol: la densidad de población del país y la edad media de la plantilla.

La prueba

Es el mismo grupo con dos datos: uno con sentido (Tradición) y otro que no significa nada (Control). Si la IA cambia mucho su predicción entre los dos, se está dejando llevar por un dato irrelevante. Si no cambia, ignora lo que le das y recita lo que ya sabe.

¿Los ignora?

receta:

Fase

Monte Carlo no es una IA: es un motor estadístico que simula los partidos miles de veces. Es la referencia neutra contra la que se mide el sesgo de los LLM.

Ruta al título

Cruces oficiales · simulación completa

Ruta al título · Monte Carlo · receta Tradición

camino más probable · pulsa un equipo para ver su grupo

Campeón

Alemania

26.82%

Final

GERvsBRA

a la final: 40.48% vs 43.63%

Desliza en horizontal para ver el cuadro completo

Probabilidad de clasificar a 1/16 · Monte Carlo · receta Tradición

1	Alemania	Grupo E	100.00%
2	Brasil	Grupo C	99.98%
3	Francia	Grupo I	99.98%
4	Argentina	Grupo J	99.95%
5	España	Grupo H	99.72%
6	Inglaterra	Grupo L	99.45%
7	Bélgica	Grupo G	99.22%
8	Uruguay	Grupo H	99.10%
9	Países Bajos	Grupo F	98.55%
10	Portugal	Grupo K	98.28%
11	Marruecos	Grupo C	96.88%
12	Croacia	Grupo L	95.78%

Simulación con desempates FIFA (enfrentamiento directo, luego DG/GF, luego ranking FIFA), los 8 mejores terceros y los cruces oficiales de 1/16.

Grupo

Detalle · Grupo A

Los 4 equipos del grupo suman 200%: de cada grupo se clasifican dos (el 1.º y el 2.º), así que son dos plazas repartidas entre los cuatro. Los porcentajes llevan dos decimales para distinguir a los que van muy igualados.

México66%

Corea del Sur56% CZE

República Checa51% RSA

Sudáfrica26%

Pregunta 1 · el dato

Calculado

Mismo motor (Monte Carlo), distinta receta.

Modelo \ Equipo

MEX

RSA

KOR

CZE

Tradición

sesgo: la historia

77.27%

14.47%

64.70%

43.56%

Controlcontrol

sesgo: datos sin relación con el fútbol

20.46%

23.24%

99.93%

56.36%

Azar

sesgo: aleatoriedad controlada

49.96%

50.28%

50.53%

49.22%

Probabilidad de clasificar (top 2 del grupo)0%100%

Pregunta 2 · el modelo

IA real

Cada IA sobre Tradición (dato real) y Control (dato sin sentido).

Modelo \ Equipo

MEX

RSA

KOR

CZE

GPT · Tradición

sesgo: popularidad / hype

70.67%

24.63%

56.00%

48.70%

Claude · Tradición

sesgo: prudencia / consenso

68.00%

23.27%

56.17%

52.57%

Gemini · Tradición

sesgo: recencia mediática

66.40%

19.60%

53.93%

60.07%

GPT · Controlcontrol

sesgo: popularidad / hype

46.63%

44.27%

58.63%

50.47%

Claude · Controlcontrol

sesgo: prudencia / consenso

44.83%

42.03%

62.30%

50.83%

Gemini · Controlcontrol

sesgo: recencia mediática

43.73%

39.90%

64.20%

52.17%

Probabilidad de clasificar (top 2 del grupo)0%100%

El caso más disputado del grupo es Sudáfrica: los modelos van de extremo a extremo (36% de diferencia).

Hallazgo

¿De dónde viene la discrepancia?

Descomposición del bloque factorial 4×2 (Monte Carlo + 3 LLMs × Tradición/Control) para este grupo.

Datos · 69%Modelo · 31%

El 69% de la divergencia viene de los datos que le das al modelo; el 31%, del modelo que eliges.

¿Ignora el dato sin sentido?

Cuánto cambia su predicción al pasar del dato real (Tradición) al dato de Control. Si apenas cambia, lo está ignorando y mantiene su criterio; si cambia mucho, se deja arrastrar por un dato que no significa nada.

GPT12 pp
Claude12 pp
Gemini15 pp

Gemini es la que más se deja llevar por el dato irrelevante: le cambias el dato real por uno sin sentido y aun así mueve su pronóstico.

Cómo funciona

Dos ejes, nueve celdas

Monte Carlo no se entrena: es el motor que simula cada grupo miles de veces. Lo que cambia entre celdas son los datos (receta) y el modelo (motor).

Eje datos

3 recetas

Qué le damos de comer al modelo. Cada receta induce su propio sesgo.

Tradiciónsesgo: la historia
ranking FIFA · histórico de mundiales
Premia a las potencias de siempre: el ranking FIFA y el palmarés en mundiales. Es el dato real con sentido del experimento.
Controlsesgo: datos sin relación con el fútbol
densidad de población · edad media de la plantilla
La receta de control: dos datos reales pero irrelevantes (densidad de población y edad media de la plantilla). No predicen el rendimiento. Mide si el modelo sigue cualquier input que le des o lo ignora y recita su prior.
Azarsesgo: aleatoriedad controlada
ninguno
Línea base: todos los equipos con la misma fuerza. Mide cuánto le ganan las otras recetas a la pura suerte.

¿«Azar controlado»? El azar no es total: con todos los equipos igual de fuertes, Monte Carlo solo deja al azar el marcador de cada partido, dentro del calendario y las reglas reales del grupo. No es caos: es el suelo contra el que medimos cuánto aportan las recetas con criterio.

Eje modelo

4 motores

Cómo se procesan los datos. Monte Carlo es el motor estadístico; los otros tres son LLMs.

Monte Carloestadístico
sesgo: ninguno (motor neutro)
GPTLLM
sesgo: popularidad / hype
ClaudeLLM
sesgo: prudencia / consenso
GeminiLLM
sesgo: recencia mediática

9 celdas: las 3 recetas sobre Monte Carlo (eje datos) + las 2 anclas (Tradición y Control) pasadas por los 3 LLMs (eje modelo). El corazón es un bloque factorial 4×2 (4 motores × 2 anclas: Tradición y Control). A cada LLM se le pasan solo las variables de la receta y se le pide las mismas probabilidades (la pregunta exacta, en Metodología).

Marcador

¿Qué modelo acierta más?

Lo medimos jornada a jornada con el Brier score frente a los resultados reales.

#	Motor	Receta	Brier (↓ mejor)
1	Claude	Tradición	0.159
2	Monte Carlo	Tradición	0.162
3	Gemini	Tradición	0.163
4	GPT	Tradición	0.166
5	GPT	Control	0.236
6	Monte Carlo	Azar	0.250
7	Claude	Control	0.251
8	Gemini	Control	0.265
9	Monte Carlo	Control	0.337

Metodología

Cómo lo hacemos, paso a paso

El fútbol es el banco de pruebas. Lo que medimos de verdad es cómo el dato y el modelo moldean una predicción de IA, y cuánto se equivocan frente a la realidad.

La hipótesis

No predecimos un ganador. Aislamos y medimos dos fuerzas que mueven cualquier predicción de IA: el dato que le das y el modelo que usas.

Los dos ejes

Eje dato: misma maquinaria, distinta información (3 recetas). Eje modelo: misma información, distinta IA (3 LLMs). El corazón es un bloque factorial 4×2 (4 motores × 2 anclas: Tradición y Control); al lado, el Azar como línea base.

El motor: Monte Carlo

Convierte «fuerza de equipo» en «probabilidad de clasificar» simulando cada grupo 20.000 veces con sus partidos y desempates reales. No está entrenado ni tiene opinión: por eso es la referencia neutra contra la que medimos el sesgo. Solo se calibra el modelo de partido (Poisson de goles), no el simulador.

Las recetas (sesgo del dato)

Tradición (un dato real con sentido: su ranking FIFA y su palmarés en mundiales) y Control (un dato sin relación con el fútbol: densidad de población y edad media), más Azar (línea base). Enfrentar un dato real con uno sin sentido mide si el modelo distingue la señal del ruido o sigue cualquier cosa que le des.

Los LLMs (sesgo del modelo)

A GPT, Claude y Gemini les damos el mismo dato (doble ancla: Tradición y Control). La diferencia entre su respuesta y la de Monte Carlo sobre ese mismo dato es su sesgo. Y al pasar del dato real (Tradición) al dato de Control comprobamos si el LLM se deja arrastrar por un dato sin sentido o lo ignora.

Validación con la realidad

Medimos probabilidades (clasificar, ganar, goles), nunca certezas. Las publicamos con fecha (preregistro) y, jornada a jornada, las puntuamos con el Brier score frente al resultado real. Eso ordena el marcador.

La pregunta al LLM

Misma pregunta para todos; solo cambia el dato

A GPT, Claude y Gemini les damos un único prompt con las variables de la receta ancla (Tradición o Control) y les pedimos lo mismo que calcula Monte Carlo. De ahí sacamos tres lecturas:

1 · La predicción. Por equipo: probabilidad de clasificar, de ganar el grupo y goles esperados. Es lo que llena la matriz.
2 · El factor principal. En una frase, qué variable pesó más, para contrastar lo que dice con lo que hace.
3 · ¿Distingue el ruido? La misma pregunta con Tradición (dato real) y luego con Control (el dato sin sentido): si la respuesta cambia mucho, se deja arrastrar por un dato que no significa nada; si no cambia, ignora el input y recita su prior.

Prompt real que se envía (ejemplo · Grupo H · receta Tradición):

Grupo H del Mundial 2026. Equipos: España (ESP), Cabo Verde (CPV), Arabia Saudí (KSA), Uruguay (URU).
Formato: todos contra todos (cada equipo juega 3 partidos). Clasifican los 2 primeros.

Datos disponibles para la receta "Tradición" (sesgo: la historia):
  • ESP: ranking_FIFA=1876.4, mundiales_jugados=16, titulos=1, subcampeonatos=0, terceros=0, cuartos=1
  • CPV: ranking_FIFA=1366.13, mundiales_jugados=0, titulos=0, subcampeonatos=0, terceros=0, cuartos=0
  • KSA: ranking_FIFA=1421.43, mundiales_jugados=6, titulos=0, subcampeonatos=0, terceros=0, cuartos=0
  • URU: ranking_FIFA=1673.07, mundiales_jugados=14, titulos=2, subcampeonatos=0, terceros=0, cuartos=3

Para CADA equipo, basándote ÚNICAMENTE en estos datos, estima estos valores:
  • qualify: probabilidad de clasificar (1.º o 2.º), entre 0 y 1
  • win: probabilidad de ganar el grupo (1.º), entre 0 y 1
  • goalsFor: goles esperados a favor en sus 3 partidos
  • factorPrincipal: en pocas palabras, qué variable ha pesado más

Reglas: la suma de "qualify" de los 4 equipos vale 2.00; la suma de "win" vale 1.00.
Devuelve SOLO este JSON, sin texto adicional:
{"teams":[{"team":"XXX","qualify":0.00,"win":0.00,"goalsFor":0.0,"factorPrincipal":"..."}]}

Reglas clave: solo con esos datos · probabilidades, nunca un ganador único · sumas forzadas (Σ clasificar = 2,00 · Σ ganar = 1,00) para poder compararlo con Monte Carlo · salida en JSON.

Cómo llamamos a los modelos

Modelos de fábrica, sin trucos

Llamamos a GPT, Claude y Gemini por su API estándar, con el modelo tal cual: sin fine-tuning, sin RAG ni búsqueda y sin herramientas. Les pasamos un único prompt con las variables de la receta y la pregunta. Los únicos ajustes son técnicos: bajamos la temperatura (solo para que las respuestas congeladas sean reproducibles) y pedimos la salida en JSON para poder leerla. Les pedimos que usen solo el dato que les damos, pero a un LLM no se le puede impedir tirar de lo que aprendió en su preentrenamiento, y comprobar justo eso, si escucha el dato o recita su prior, es el experimento. Reproducimos lo que obtendría cualquiera que use estos modelos para predecir, sin ingeniería de por medio.

Bajo el capó

• Modelos reales: GPT-4.1, Claude Sonnet 4.5 y Gemini 2.5 Pro, congelados con fecha (preregistro) para que las cifras no cambien entre visitas.
• Cada IA decide todas las fases: predice los partidos de grupo y cada cruce de eliminatoria.
• Desempates FIFA: puntos, luego enfrentamiento directo, luego DG/GF global y ranking FIFA.
• Cuadro oficial: top 2 de cada grupo más los 8 mejores terceros, con los cruces reales de 1/16.

¿Hablas data?

Todo modelo tiene sesgos. Incluso en el fútbol, ¿los conoces?

Estos sesgos también viven en tu negocio. Tradición, recencia, hype... los mismos que hacen discrepar a estos modelos están en el que usas para forecasting, scoring de clientes o previsión de demanda. En Hubler los auditamos y te decimos cuál domina el tuyo y cuánto te cuesta.