Mundial 2026 · Laboratorio de sesgos de IA
El Objetivo
Medir el sesgo de los LLMs al predecir con el mismo input.
El resultado
El ganador del Mundial
Mismo input, distintas IAs: medimos cuánto cambia la predicción según el modelo que elijas. Y con una simulación completa (grupos con reglas FIFA y eliminatorias con el cuadro oficial) calculamos quién levanta la copa.
48
selecciones · 12 grupos
10
modelos por grupo
El experimento
Dos ejes: el dato y el modelo
Evaluamos cada predicción en dos ejes a la vez para separar dos efectos que casi siempre se confunden.
El eje del dato (input) cambia qué información recibe el modelo (histórico, forma reciente o dinero) manteniendo el motor fijo. El eje del modelo (LLM) cambia quién razona: GPT, Claude o Gemini, cada uno con su propio entrenamiento y contexto, manteniendo el dato fijo. Cruzar ambos nos deja medir, por separado, cuánto pesa lo que le das y cuánto pesa la IA que eliges.
Pregunta 1
Mismo modelo, datos distintos
A un mismo modelo le damos datos de entrada diferentes. ¿Cambia su predicción… o repite lo que ya «creía saber»?
Pregunta 2
Mismo dato, modelos distintos
A varios LLMs, que ya arrastran su entrenamiento y su contexto, les damos exactamente el mismo dato. ¿Coinciden o discrepan, y por qué?
Para responderlo construimos una matriz dividida en esos dos ejes (dato y modelo). Cada celda es una hipótesis viva: medimos la probabilidad que asigna a un evento (goles, ganador) y, jornada a jornada, la contrastamos con la realidad. Así validamos dos cosas:
La importancia del dato de entrada
Cuánto cambia el resultado solo por cambiar lo que alimenta al modelo.
Los sesgos de cada modelo
Qué inclinación arrastra cada IA por cómo fue entrenada, aun recibiendo el mismo dato.
Ruta al título
Cruces oficiales · simulación completa
Ruta al título · Monte Carlo · receta Hype
camino más probable · pulsa un equipo para ver su grupo
Campeón
Francia
19%
Final
| 1 | España | Grupo H | 100% | |
| 2 | Alemania | Grupo E | 100% | |
| 3 | Bélgica | Grupo G | 100% | |
| 4 | Francia | Grupo I | 100% | |
| 5 | Inglaterra | Grupo L | 100% | |
| 6 | Argentina | Grupo J | 100% | |
| 7 | Brasil | Grupo C | 99% | |
| 8 | Croacia | Grupo L | 98% | |
| 9 | Países Bajos | Grupo F | 98% | |
| 10 | Uruguay | Grupo H | 97% | |
| 11 | Portugal | Grupo K | 97% | |
| 12 | Suiza | Grupo B | 95% |
Simulación con desempates FIFA (enfrentamiento directo, luego DG/GF, luego ranking FIFA), los 8 mejores terceros y los cruces oficiales de 1/16.
Detalle · Grupo A
Pregunta 1 · el dato
CalculadoMismo motor (Monte Carlo), distinta receta.
Tradición
sesgo: tradición
Hype
sesgo: popularidad / lo que suena
Ajustado
sesgo: condiciones reales
Azar
sesgo: aleatoriedad controlada
Pregunta 2 · el modelo
IA realMismo dato (anclas Hype/Ajustado), distinta IA.
GPT · Hype
sesgo: popularidad / hype
Claude · Hype
sesgo: prudencia / consenso
Gemini · Hype
sesgo: recencia mediática
GPT · Ajustado
sesgo: popularidad / hype
Claude · Ajustado
sesgo: prudencia / consenso
Gemini · Ajustado
sesgo: recencia mediática
Hype → Ajustado
¿Quién hace caso a la realidad?
El cambio al pasar de Hype a Ajustado, es decir, lo que mueve meter altitud, clima y cansancio por viaje. Monte Carlo es la referencia porque aplica la penalización siempre. Una IA que escucha el dato se le parece; una que recita su prior se queda plana (gris). Naranja = baja, morado = sube.
A República Checa, que juega en altura, la realidad le pasa factura: Monte Carlo le quita 21 puntos al pasar de Hype a Ajustado. Aun así, Claude apenas reacciona (0pp), mientras Gemini sí lo penaliza (-19pp). Mismo dato, lecturas opuestas.
El caso más disputado del grupo es México: los modelos van de extremo a extremo (46% de diferencia).
Hallazgo
¿De dónde viene la discrepancia?
Descomposición del bloque factorial 4×2 (Monte Carlo + 3 LLMs × Hype/Ajustado) para este grupo.
El 23% de la divergencia viene de los datos que le das al modelo; el 77%, del modelo que eliges.
¿Escucha el LLM los datos?
Cuánto cambia su predicción al pasar de Hype a Ajustado. Bajo = ignora el input (altitud, clima y cansancio) y recita su prior.
- GPT3 pp
- Claude1 pp
- Gemini12 pp
Claude apenas mueve su predicción al cambiarle los datos: pesa más lo que ya «cree saber» que lo que le mostramos.
Sorpresas
Caballos negros
Selecciones calientes en forma reciente a las que la simulación NO da como favoritas para clasificar a 1/16. Candidatas a dar la campanada.
Jordania
Grupo J
RD Congo
Grupo K
Irak
Grupo I
Uzbekistán
Grupo K
Panamá
Grupo L
Australia
Grupo D
Calculado con la forma reciente del equipo frente a la probabilidad de la simulación completa.
Cómo funciona
Dos ejes, diez celdas
Monte Carlo no se entrena: es el motor que simula cada grupo miles de veces. Lo que cambia entre celdas son los datos (receta) y el modelo (motor).
Eje datos
4 recetas
Qué le damos de comer al modelo. Cada receta induce su propio sesgo.
- Tradiciónsesgo: tradición
histórico de mundiales · ranking FIFA
Favorece a las potencias históricas.
- Hypesesgo: popularidad / lo que suena
forma últimos 12 meses · valor de mercado · fama (ranking + histórico)
Lo que pesaría cualquiera sin mirar restricciones: forma reciente, dinero y fama. Coincide con lo que un LLM ya cree.
- Ajustadosesgo: condiciones reales
lo del Hype · penalización por altitud · penalización por clima · penalización por cansancio (viaje)
El Hype bajado a la realidad: penaliza por la altitud, el clima y el cansancio por viaje (distancia entre sedes y descanso) donde juega cada equipo.
- Azarsesgo: aleatoriedad controlada
ninguno
Línea base: todos los equipos con la misma fuerza. Mide cuánto le ganan las otras recetas a la pura suerte.
¿«Azar controlado»? El azar no es total: con todos los equipos igual de fuertes, Monte Carlo solo deja al azar el marcador de cada partido, dentro del calendario y las reglas reales del grupo. No es caos: es el suelo contra el que medimos cuánto aportan las recetas con criterio.
Eje modelo
4 motores
Cómo se procesan los datos. Monte Carlo es el motor estadístico; los otros tres son LLMs.
- Monte Carloestadístico
sesgo: ninguno (motor neutro)
- GPTLLM
sesgo: popularidad / hype
- ClaudeLLM
sesgo: prudencia / consenso
- GeminiLLM
sesgo: recencia mediática
10 celdas: las 4 recetas sobre Monte Carlo (eje datos) + las 2 anclas (Hype y Ajustado) pasadas por los 3 LLMs (eje modelo). Se cruzan en un bloque factorial 4×2. A cada LLM se le pasan solo las variables de la receta y se le pide las mismas probabilidades (la pregunta exacta, en Metodología).
Marcador
¿Qué modelo acierta más?
Lo medimos jornada a jornada con el Brier score frente a los resultados reales.
Marcador en espera
La fase de grupos arranca el 11 de junio de 2026. A partir de cada jornada puntuaremos cada modelo con el Brier score (cuánto se acerca su probabilidad al resultado real) y verás aquí qué receta y qué motor aciertan más. Las predicciones quedan registradas con fecha: no se reescriben.
Metodología
Cómo lo hacemos, paso a paso
El fútbol es el banco de pruebas. Lo que medimos de verdad es cómo el dato y el modelo moldean una predicción de IA, y cuánto se equivocan frente a la realidad.
La hipótesis
No predecimos un ganador. Aislamos y medimos dos fuerzas que mueven cualquier predicción de IA: el dato que le das y el modelo que usas.
Los dos ejes
Eje dato: misma maquinaria, distinta información (4 recetas). Eje modelo: misma información, distinta IA (3 LLMs). Se cruzan en una matriz de 10 celdas (bloque factorial 4×2 + 2 columnas de contexto).
El motor: Monte Carlo
Convierte «fuerza de equipo» en «probabilidad de clasificar» simulando cada grupo 20.000 veces con sus partidos y desempates reales. No está entrenado ni tiene opinión: por eso es la referencia neutra contra la que medimos el sesgo. Solo se calibra el modelo de partido (Poisson de goles), no el simulador.
Las recetas (sesgo del dato)
Tradición (histórico + FIFA), Hype (forma + dinero + fama, lo que pesaría cualquiera) y Ajustado (el Hype penalizado por la altitud, el clima y el cansancio por viaje de las sedes), más Azar (línea base). Cambiar de receta sobre el mismo motor neutro muestra cuánto pesa el dato de entrada.
Los LLMs (sesgo del modelo)
A GPT, Claude y Gemini les damos el mismo dato (doble ancla: Hype y Ajustado). La diferencia entre su respuesta y la de Monte Carlo sobre ese mismo dato es su sesgo. Y al pasar de Hype a Ajustado comprobamos si el LLM escucha los datos (altitud, clima, cansancio) o recita su prior.
Validación con la realidad
Medimos probabilidades (clasificar, ganar, goles), nunca certezas. Las publicamos con fecha (preregistro) y, jornada a jornada, las puntuamos con el Brier score frente al resultado real. Eso ordena el marcador.
La pregunta al LLM
Misma pregunta para todos; solo cambia el dato
A GPT, Claude y Gemini les damos un único prompt con las variables de la receta ancla (Hype o Ajustado) y les pedimos lo mismo que calcula Monte Carlo. De ahí sacamos tres lecturas:
- 1 · La predicción. Por equipo: probabilidad de clasificar, de ganar el grupo y goles esperados. Es lo que llena la matriz.
- 2 · El factor principal. En una frase, qué variable pesó más, para contrastar lo que dice con lo que hace.
- 3 · ¿Escucha los datos? La misma pregunta con Hype y luego con Ajustado: si la respuesta apenas cambia, está ignorando el input (altitud, clima, cansancio) y recitando su prior.
Prompt real que se envía (ejemplo · Grupo H · receta Ajustado):
Grupo H del Mundial 2026. Equipos: España (ESP), Cabo Verde (CPV), Arabia Saudí (KSA), Uruguay (URU).
Formato: todos contra todos (cada equipo juega 3 partidos). Clasifican los 2 primeros.
Datos disponibles para la receta "Ajustado" (sesgo: condiciones reales):
• ESP: forma_12m=2.4 pts/partido, valor=1270M€, ranking_FIFA=1876.4, pedigri_mundialista=25/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.54/1 (mayor = condiciones de sede/viaje peores)
• CPV: forma_12m=1.36 pts/partido, valor=56.38M€, ranking_FIFA=1366.13, pedigri_mundialista=0/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.53/1 (mayor = condiciones de sede/viaje peores)
• KSA: forma_12m=1.33 pts/partido, valor=27.63M€, ranking_FIFA=1421.43, pedigri_mundialista=4/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.44/1 (mayor = condiciones de sede/viaje peores)
• URU: forma_12m=1.6 pts/partido, valor=363M€, ranking_FIFA=1673.07, pedigri_mundialista=39/100, dificultad_altitud=0.00/1, dificultad_clima=0.45/1, dificultad_cansancio=0.55/1 (mayor = condiciones de sede/viaje peores)
Para CADA equipo, basándote ÚNICAMENTE en estos datos, estima estos valores:
• qualify: probabilidad de clasificar (1.º o 2.º), entre 0 y 1
• win: probabilidad de ganar el grupo (1.º), entre 0 y 1
• goalsFor: goles esperados a favor en sus 3 partidos
• factorPrincipal: en pocas palabras, qué variable ha pesado más
Reglas: la suma de "qualify" de los 4 equipos vale 2.00; la suma de "win" vale 1.00.
Devuelve SOLO este JSON, sin texto adicional:
{"teams":[{"team":"XXX","qualify":0.00,"win":0.00,"goalsFor":0.0,"factorPrincipal":"..."}]}Reglas clave: solo con esos datos · probabilidades, nunca un ganador único · sumas forzadas (Σ clasificar = 2,00 · Σ ganar = 1,00) para poder compararlo con Monte Carlo · salida en JSON.
Cómo llamamos a los modelos
Modelos de fábrica, sin trucos
Llamamos a GPT, Claude y Gemini por su API estándar, con el modelo tal cual: sin fine-tuning, sin RAG ni búsqueda y sin herramientas. Les pasamos un único prompt con las variables de la receta y la pregunta. Los únicos ajustes son técnicos: bajamos la temperatura (solo para que las respuestas congeladas sean reproducibles) y pedimos la salida en JSON para poder leerla. Les pedimos que usen solo el dato que les damos, pero a un LLM no se le puede impedir tirar de lo que aprendió en su preentrenamiento, y comprobar justo eso, si escucha el dato o recita su prior, es el experimento. Reproducimos lo que obtendría cualquiera que use estos modelos para predecir, sin ingeniería de por medio.
Bajo el capó
- • Modelos reales: GPT-4.1, Claude Sonnet 4.5 y Gemini 2.5 Pro, congelados con fecha (preregistro) para que las cifras no cambien entre visitas.
- • Cada IA decide todas las fases: predice los partidos de grupo y cada cruce de eliminatoria.
- • Desempates FIFA: puntos, luego enfrentamiento directo, luego DG/GF global y ranking FIFA.
- • Cuadro oficial: top 2 de cada grupo más los 8 mejores terceros, con los cruces reales de 1/16.
¿Hablas data?
Todo modelo tiene sesgos. Incluso en el fútbol, ¿los conoces?
Estos sesgos también viven en tu negocio. Tradición, recencia, hype... los mismos que hacen discrepar a estos modelos están en el que usas para forecasting, scoring de clientes o previsión de demanda. En Hubler los auditamos y te decimos cuál domina el tuyo y cuánto te cuesta.