Modelo de prediccion de resultados de un partido de Futbol (Paso2)

En primer lugar quiero agradecer a todos los que han colaborado con las sugerencias el tiempo que me han dedicado enviado los factores que para ellos eran importantes. Ya hemos recogido unos cuantos y podemos empezar a comentarlo.

Empezamos por orden de importancia en cuanto a la cantidad de sugerencias recibidas:

 1. Goles: Ha sido el factor más votado y es el más fácil de conseguir, con lo que tiene todo para ser considerado como uno de los principales en el modelo de predicción. En algunos casos no se especifica claramente, pero tomaremos los goles a favor, y en contra de los dos equipos.

2. Bajas: El segundo factor más votado han sido las bajas. Este ya tiene un poco más de dificultad porque los modelos deben incluir parámetros transversales, es decir, que sean cuantificables en todo el conjunto de datos que tengamos para ajustar el modelo y para predecir. Así que deberemos traducir el factor BAJAS a algo valorable en cada equipo, relacionado con las alineaciones. Se me ocurre algo parecido a los puntos que tiene cada cromo de la liga, o bien puntos o euros que cuesta cada jugador en Comunio, o algo similar. Un sistema de puntuacion similar al de Fanaticleague sería ideal. Se aceptan sugerencias también para esto.



3. Arbitro: No ha sido mayoritaria pero algunos de vosotros ha considerado que esta variable también debe ser incluida en el modelo. En este caso pasa algo similar a lo que hemos comentado con las bajas, hay que cuantificar también. Podría ser el % de partidos ganados empatados y perdidos del equipo de casa cuando pita un determinado colegiado y lo mismo para el de fuera. Aceptamos, por supuesto, otras sugerencias.

4. Clima: Otro factor dificilmente cuantificable, al que incluso podríamos añadir hora del partido (mañana / tarde / noche).  Mi propuesta sería hacer algo similar al caso del arbitro, % de partidos ganados / empatados / perdidos.

Con estos factores acabamos la entrada de hoy, en la siguiente continuaremos con los que quedan, pero antes me gustaría proponer algunos más que curiosamente no han recibido ningún voto:

  • Distancia recorrida por el equipo visitante. Hay estudios que indican que hay una relacion entre victorias visitantes / locales dependiendo de las distancias recorridas por el equipo visitante.
  • Estrategia / Esquema de juego de cada equipo. 
  • Ponderación de partidos o goles en función de la fortaleza del equipo contra el que se ha jugado (algo similar al rating ELO de los jugadores de ajedrez), es decir, no es lo mismo haber jugado 5 partidos contra los últimos equipos de la liga que contra los primeros. 
Un saludo y sigo atento a vuestras sugerencias.

Modelo de prediccion de resultados de un partido de Futbol (Paso1)

Hola a todos,

La idea de este post es comenzar el desarrollo de un modelo de predicción de resultados de un partido de fútbol con la colaboración de todos los visitantes del blog. El primer paso para crear nuestro modelo va a ser una tormenta de ideas (brainstorming) para recoger todos los factores posibles que debería incluir el modelo.

Para ir recogiendo las respuestas he creado el siguiente formulario:



En el campo del formulario poned solo un factor y lo enviais. Si quereis agregar otro solo teneis que volver a rellenar el campo y pulsar enviar otra vez. Dejaré un tiempo prudencial el formulario para ir recogiendo las respuestas y luego haremos un análisis de los resultados. Un saludo a todos y gracias por vuestra colaboración.

El retorno con nuevo reto

Lamentablemente el tiempo del que dispongo para actualizar el blog cada vez es menor y el tiempo que pasa entre un post y otro se hace cada vez mayor. Se que un post semanal es realmente complicado y no puedo plantearmelo como objetivo, pero lo que si puedo permitirme es al menos un post mensual. Se que no es mucho, pero algo es algo, y con esto evitaré la sensación de abandono que tengo ahora cada vez que visito el blog.

Así que .... tenemos nueva meta, al menos un post mensual. Espero cumplirla y para ello vamos a comenzar a lo grande, con un nuevo reto, en fútbol, algo que no me gusta mucho pero por los datos que tengo puede que nos de resultados.

Será un reto de over under sobre la liga española de primera división y lo llevaremos como siempre en el blog de los retos.






El poder de las pequeñas cosas

Son muchas las personas que me han contactado y siguen contactando para pedir ayuda a la hora de calcular las probabilidades de los posibles resultados de un partido. La mayoría de ellos lo hacen después de haber leído la entrada referente a la distribución de Poisson y su aplicación al futbol. Allí explicamos como mediante una simple fórmula se puede realizar una aproximación a la probabilidad real de los resultados de un partido. Esto tiene su parte buena y su parte mala. La buena es que con sólo un par de datos (goles a favor del equipo de casa y del equipo de fuera) se puede calcular una probabilidad, que, debido a lo simple del método, no siempre resultará cierta. Esta es la parte mala.

Si tomamos esta base como único pilar para nuestra estrategia de apuestas, lo tenemos realmente difícil para salir en verde a largo plazo. Estamos intentando crear un modelo de predicción de un evento realmente complejo, como es un partido de fútbol, usando únicamente dos parámetros. En el resultado final del partido intervienen infinidad de variables que nuestro modelo no tiene en cuenta y al que afectarán en mayor o menor medida.

Muchas de estas varibles pueden resultar ridículas a primera vista, y mucha gente no las tendría en cuenta. Existen jugadores de futbol que saltan al terreno de juego pisando siempre con un pie determinado, otros lo hacen justo en la tercera posición, otros tocan el cespéd... también en el tenis se pueden encontrar actuaciones similares, hay algunos tenistas que intentan no pisar las líneas, o sacar siempre el primero, cambian la raqueta al cabo de 8 juegos o botan la pelota 8 veces antes de sacar. Todas estas variables normalmente no se tienen en cuenta en los modelos de predicción pero, por increíble que parezca, pueden llegar a tener influencia en el resultado. Esta influencia puede lleagar a ser demostrada mediante test estadísticos. Aquí hemos usado ya test similares para analizar la influencia de jugadores o entrenadores en la cantidad de partidos ganados o la cantidad de goles marcados.

Este verano en uno de mis devaneos por la red, andaba yo buscando información sobre la MLB y me llevé la sorpresa de que existe un foro en español sobre el tema, en el que además existe un apartado sobre sabermetrics. En este foro se planteó si el rendimiento de un bateador podría estar influenciado por un factor que resulta realmente llamativo: el color de sus ojos.

La historia comenzó cuando Josh Hamilton, bateador de los Texas Rangers, comentó que le resultaba mucho más complicado batear en los partidos jugados durante el día que en los que se jugaban por la noche. Sus números así parecen indicarlo:


De día le han realizado 49 lanzamientos, con los siguientes resultados:
  • Bateados: 6
  • HR: 0
  • RIB's: 4
  • Walks : 8
  • SO: 17
  • OPS: 0.429

Con luz artificial le han realizado 109:
  • Bateados: 41
  • HR: 6
  • RIB's: 28
  • Walks : 7
  • SO: 14
  • OPS: 1.076.

Con estos datos se puede demostrar estadísticamente que para este bateador los efectos de la luz natural tienen efectos negativos en su juego. Todos los test realizados sobre los parámetros anteriores tienen significación estadística, esto quiere decir, que con un 95% de probabilidad podemos rechazar que las diferencias sean debidas al azar.

Usando estas mismas variables se podría ampliar la hipótesis a todos los lanzadores con ojos claros e intentar demostrar que siempre tinen mejores números con luz artificial, que con la luz de día. No sería difícil, si alguien se molesta en recoger los datos lo podemos hacer. Por lo pronto Josh ha decidido jugar los partidos diurnos con unas lentillas de color... rojo!!. ¿Será esto suficiente para ver mejorar su rendimiento?, pronto lo veremos... y nunca mejor dicho.

Pitágoras y la MLB

Este filósofo, pensador y matemático griego da nombre a uno de los teoremas más conocidos de las matemáticas: El Teorema de Pitágoras, aunque, paradójicamente, no se le puede atribuir ni él ni tampoco a su escuela su descubrimiento. En civilizaciones mucho más antiguas como la babilónica, la hindú o la egipcia, ya eran conocidas las llamadas ternas pitagóricas: tríos de números que cumplen con este teorema.

Una de las más famosas, la terna 3-4-5, era denominada por los egipcios 'el triángulo sagrado' y la pirámide de Kefrén, por ejemplo, fue construida basándose en ella. Su lado mide 412 Codos y su altura estimada en la época de su construcción era 275 Codos. La relación entre la semi-base de la pirámide (412 / 2 = 206) y la altura 275 es de 3/4 (206 / 275 = aprox 0.75 = 3/4).

Por increíble que parezca, también tenemos referencias a esta fórmula en el mundo de las apuestas. Un estudioso de la MLB llamado Bill James, descubrió hace unos 30 años, que había una relación entre las carreras concedidas y anotadas por los equipos de la MLB y su porcentaje de victorias. Esta relación la expresó como:


Debido a la similitud de esta fórmula con el teorema de Pitágoras, en el que todos sus valores también aparecen elevados al cuadrado, la denominó el teorema de Pitágoras para el beisbol.

A partir de aquí otros muchos investigadores han intentado aplicar el mismo concepto de fórmula para otros deportes y así se ha llegado a la misma fórmula en la que los doses se sustituyen por los siguientes factores:

NFL: 2.37

NCAA Basketball:10

NBA: 14


La finalidad de esta fórmula es predecir cual sería el porcentaje teórico de partidos ganados en función de los puntos anotados y recibidos. Esto puede ser de gran interés para el apostante. Este valor teórico se puede comparar con el real y en consecuencia se pueden determinar equipos que sus valores reales están 'desajustados' frente a las predicciones. Si la realidad refleja un valor inferior al teórico se supone que ese equipo debe mejorar en un futuro y el % de victorias debe ser superior al que ha obtenido hasta ese momento, por el contrario si el valor real es superior al teórico, tenemos a un equipo 'sobrevalorado' y sus resultados deberían ser peores en un futuro.

En la temporada 2006-07 los Miami Heats tenían una media por partido de 94.6 puntos anotados frente a 95.5 recibidos. Su porcentaje de victorias esperadas era del 47% frente al 54% (44-38) que llevaban durante la temporada. En los play-offs cayeron estrepitosamente 4-0 frente a Chicago.

Algo similar le sucedió a los Dallas Mavericks, que comenzaron los playoffs con un 74% teórico frente a un 82% real. También fueron eliminados en la primera ronda de los playoffs.
San Antonio Spurs se presentaban a los playoffs con un panorama radicalmente diferente: un 71% de victorias reales frente a las 78% esperadas. Los números parecían indicar que los Spurs, no lo iban a hacer mal en los playoffs, y así fue, resultaron los ganadores de ese año y en los play offs consiguieron un registro de 16 partidos ganados frente a 4 perdidos (80%).

Otros ejemplos como estos se pueden encontrar analizando otras ligas y otras temporadas, y la idea sigue siendo la misma, estimar un nuevo parámetro que nos permita añadir un factor más al análisis de nuestros picks. Ahora es responsabilidad de cada uno ajustar su peso en la decisión final. Tanto si es alto como si es bajo, confío que os sea útil de alguna manera.

Apostando a ciegas

Recuerdo que hace un par de meses recibí un mail de un visitante del blog que me comentaba que era nuevo en este mundo de las apuestas y que antes de abrir ninguna cuenta y comenzar a arriesgar su dinero había estado leyendo e informándose sobre todo lo concerniente a las apuestas deportivas. Esta es una postura que me parece de lo más razonable y, aunque sé que no es lo habitual, sería lo deseable para todo aquel que decida iniciarse en este mundo.

También me indicaba que, como su experiencia era limitada, se había planteado empezar copiando picks de tipsters con números positivos y estables a largo plazo. Esto tampoco me parecía una mala opción y así se lo comenté en mi mail de contestación.

Al cabo de unas semanas llegó la hora de hacer balance de sus primeros pasos y pese haber seguido religiosamente los picks de los tipsters, su YIELD no era comparable. Esto le llamó poderosamente la atención y me preguntaba intrigado, como podía ser posible, si había hecho exactamente lo que el tipster indicaba.

La respuesta es bien sencilla. Descartando el hecho de que hubiese cometido alguna imprudencia con los stakes, la clave estaba en las cuotas. Apostar ciegamente a los picks que ofrecen ciertas páginas o tipsters no tiene ningún sentido si no consideramos las cuotas y los stakes. Un pick puede pasar de ser un buen value, a ser una apuesta de alto riesgo, simplemente porque la cuota que hemos encontrado es inferior a la que indica el pick. Este cambio en la cuota puede venir provocado bien porque ha bajado desde que el tipster publicó su selección o bien porque nuestra casa tiene cuotas inferiores a la casa en la que el tipster juega habitualmente. Independientemente de uno u otro motivo el resultado final es siempre el mismo.

La demostración matemática de este hecho no resulta complicada.

Apostando una cantidad fija (K) a una cuota fija (C) el YIELD se puede reducir a calcular:
YIELD = C x % medio de aciertos - 1
Jugando un poco con los números, si nuestro tipster estrella tiene un porcentaje de aciertos del 54% en eventos a cuota 1.95 su YIELD será de:

YIELD = 1.95 x 54% - 1 = 5.3%

Si nosotros seguimos ciegamente sus apuestas, tenemos, como es lógico, el mismo % de acierto, 54%, pero para nuestra desgracia la cuota media de nuestros picks se ha visto reducida hasta un pobre 1.85. Con estos números:

YIELD = 1.85 x 54% - 1 = -0.1%

Así pues, mientras el tipster estrella va incrementando su bank constantemente, nosotros, con los mismos picks, aciertos y stakes, nos vamos moviendo en el filo de la navaja y una mala racha del tipster nos empujará hacia el abismo rojo.

Por todo ello, mi consejo es NO APOSTAR si no encontramos cuotas idénticas o superiores a la de los picks de los tipsters a los que nos gusta seguir. Es decir, NO APOSTAR A CIEGAS a algo por el mero hecho de que un gurú de las apuestas así lo indica.

El retorno de las casas

Ya hablamos en una ocasión sobre el beneficio que tiene el buscar siempre la mejor cuota en nuestras apuestas. Como es absolutamente lógico, cada persona que se inicia en el mundo de las apuestas lo hace con la finalidad de rentabilizar su inversión. Para ello debemos buscar entre toda la oferta aquella que más ganacia nos de para una misma cantidad apostada.

Una manera fácil de hacerlo es calculando el retorno de las casas. El pasado 21 de Marzo para el choque de la premier entre el Manchester Ud. Y el Liverpool Pinnacle ofrecia 1.7 por la victoria del Manchester, 5.62 por la victoria del Liverpool y 3.94 por el empate, mientras que Bwin ofrecía 1.6, 5.5 y 3.6 por los mismos resultados.

En la primera casa si apostásemos la cantidad necesaria a cada opción para obtener el retorno de 1 ud. Deberíamos gastar:
1/1.7 + 1/5.62 + 1/3.94 = 0.588 + 0.178 + 0.254 = 1.02 ud.
Es decir, apostando 0.588 uds @ 1.7 (victoria del Manchester) 0.178 @ 5.62 y 0. 254 @ 3.94 independientemente del resultado que se diese obtendríamos 1 ud. de retorno. En este negocio hemos invertido 1.02 uds y recibimos 1 ud. Esto equivale a 1/1.02 = 98% de retorno de la inversión por parte de la casa. Por cada unidad apostada recibimos 0.98.

Para el segundo caso haciendo los mismos cálculos el retorno de la casa es de tan solo el 92%.

Siguiendo el mismo procedimiento hemos calculado el retorno de otras casas para el mismo partido. El resultado lo podeis ver en la tabla lateral, de la que cabe destacar dos cosas:

  1. No siempre las casas de intercambio de apuestas ofrecen los mejores retornos
  2. Deberíamos pensar en tener cuentas en las casas con mejores retornos, que por norma general son las que mejores cuotas ofrecen para todas las opciones.
Os dejo también una pequeña hoja para que podais hacer vuestros propios cálculos. Espero que os sirva.

EDITO 21-01-11: He añadido una columna más a la hoja de calculo para poder poner la comisión de la casa.

EDITO 03-06-12: Parece ser que hay gente que su unica finalidad es fastidiar las hojas que dejo abiertas para que puedan ser modificadas. Esta por ejemplo la ha borrado por completo. No me cuesta más que un click recuperarla, pero me cuesta entender que haya personas que dediquen su tiempo a cosas como esta. Bueno, pues nada, aqui está otra vez recuperada para que la vuelvas a borrar.