Los investigadores han predicho el resultado después de simular todo el torneo de fútbol 100.000 veces.

Solamente a días del mundial unos estudiantes se pusieron como meta predecir al futuro ganador del Mundial Rusia 2018, la Copa comienza en Rusia el jueves y es probable que sea uno de los eventos deportivos más vistos en la historia, más popular incluso que los Juegos Olímpicos. Entonces, los posibles ganadores son de gran interés.

Una forma de medir los posibles resultados es observar las probabilidades de los corredores de apuestas. Estas compañías usan estadísticos profesionales para analizar extensas bases de datos de resultados de una manera que cuantifica la probabilidad de diferentes resultados de cualquier posible coincidencia. De esta forma, los corredores de apuestas pueden ofrecer probabilidades en todos los juegos que comenzarán en las próximas semanas, así como las probabilidades de ganadores potenciales.

Una estimación aún mejor proviene de comparar las probabilidades de muchos corredores de apuestas diferentes. Este enfoque sugiere que Brasil es el claro favorito para ganar el Mundial de 2018, con una probabilidad del 16.6% , seguido por Alemania (12.8%) y España (12.5%).

Pero en los últimos años, los investigadores han desarrollado técnicas de aprendizaje automático que tienen el potencial de superar los enfoques estadísticos convencionales. ¿Qué predicen estas nuevas técnicas como el posible resultado de la Copa Mundial 2018?

Una respuesta proviene del trabajo de Andreas Groll en la Universidad Técnica de Dortmund en Alemania y algunos colegas. Estos chicos usan una combinación de aprendizaje automático y estadísticas convencionales, un método llamado enfoque de bosque aleatorio, para identificar a un ganador diferente.

Primero algunos antecedentes. La técnica del bosque aleatorio ha surgido en los últimos años como una poderosa forma de analizar grandes conjuntos de datos y al mismo tiempo evitar algunos de los inconvenientes de otros métodos de extracción de datos. Se basa en la idea de que un evento futuro puede ser determinado por un árbol de decisión en el que se calcula un resultado en cada rama por referencia a un conjunto de datos de entrenamiento.

Sin embargo, los árboles de decisión sufren de un problema bien conocido. En las últimas etapas del proceso de ramificación, las decisiones pueden verse seriamente distorsionadas por los datos de capacitación que son escasos y propensos a una gran variación en este tipo de resolución, un problema conocido como sobreajuste.

El enfoque de bosque aleatorio es diferente. En lugar de calcular el resultado en cada rama, el proceso calcula el resultado de las ramas aleatorias. Y lo hace muchas veces, cada vez con un conjunto diferente de ramas seleccionadas al azar. El resultado final es el promedio de todos estos árboles de decisión construidos al azar.

Este enfoque tiene ventajas significativas. En primer lugar, no sufre el mismo problema de sobreajuste que afecta a los árboles de decisión ordinarios. También revela qué factores son más importantes para determinar el resultado.

Entonces, si un árbol de decisión particular incluye muchos parámetros, es fácil ver cuáles tienen el mayor impacto en el resultado y cuáles no. Estos factores menos importantes pueden ser ignorados en el futuro.

Groll y Co utilizan exactamente este enfoque para modelar la Copa Mundial 2018. Modelan el resultado de cada juego que los equipos puedan jugar y usan los resultados para construir el curso más probable del torneo.

Groll y Co comienzan con una amplia gama de factores potenciales que pueden determinar el resultado. Estos incluyen factores económicos como el PIB y la población de un país, clasificación de equipos nacionales de la FIFA y las propiedades de los propios equipos, como su edad promedio, el número de jugadores de la Liga de Campeones que tienen, si tienen ventaja de local, etc. .

Curiosamente, el enfoque de bosque aleatorio permite a Groll y compañía incluir otros intentos de clasificación, como los rankings utilizados por los corredores de apuestas.

Conectar todo esto en el modelo proporciona algunas ideas interesantes. Por ejemplo, los factores más influyentes son las clasificaciones por equipos creadas por otros métodos, incluidos los de corredores de apuestas, FIFA y otros.

Otros factores importantes incluyen el PIB y el número de jugadores de la Liga de Campeones en el equipo. Los factores no importantes incluyen la población del país, la nacionalidad del entrenador, etc.

Las predicciones a través de este proceso difieren de otras en algunos aspectos importantes. Para empezar, el método del bosque aleatorio escoge a España como el ganador más probable, con una probabilidad del 17.8 por ciento.

Sin embargo, un factor importante en esta predicción es la estructura del torneo en sí. Si Alemania supera la fase de grupos de la competencia, es más probable que se enfrente a una fuerte oposición en la fase eliminatoria de 16 equipos. Debido a esto, el método del bosque aleatorio calcula que las posibilidades de Alemania de alcanzar los cuartos de final son del 58 por ciento. Por el contrario, es poco probable que España se enfrente a una fuerte oposición en los últimos 16 partidos, por lo que tiene un 73 por ciento de posibilidades de alcanzar los cuartos de final.

Si ambos llegan a cuartos de final, tienen más o menos posibilidades de ganar. “España está ligeramente favorecida con respecto a Alemania, principalmente debido al hecho de que Alemania tiene una oportunidad comparativamente alta de abandonar en la ronda de dieciséis”, dicen Groll y compañía.

Pero hay un giro adicional. El proceso de árbol aleatorio hace posible simular todo el torneo, y esto produce un resultado diferente.

Groll y Co simularon todo el torneo 100.000 veces. “Según el torneo más probable, en lugar del español, el equipo alemán ganaría la Copa del Mundo”, dicen.

Por supuesto, debido a la gran cantidad de permutaciones de juegos, este curso es extremadamente improbable. Groll y Co ponen las probabilidades en alrededor de 1 en 100,000.

Entonces ahí lo tienes. Al comienzo del torneo, España tiene las mejores posibilidades de ganar, de acuerdo con Groll y compañía. Pero si Alemania llega a los cuartos de final, entonces se convierte en el favorito.

El torneo comienza el jueves, cuando los anfitriones, Rusia, se enfrenten a Arabia Saudita. Tristemente, ninguno de estos equipos parece probable que llegue a cuartos de final.

Fuente:

arxiv.org/abs/1806.03208: : Prediction Of The FIFA World Cup 2018 – A Random Forest Approach With An Emphasis On Estimated Team Ability Parameters

https://www.technologyreview.com/s/611397/machine-learning-predicts-world-cup-winner/