Resumenes gráficos de variables en escala nominal

Las dos formas más frecuentes de resumir gráficamente variables de escala nominal son los diagramas de barras y los diagramas de sectores. Lo que se representa en ambos casos es la cantidad de eventos que se han dado en cada una de las categorías. Es importante señalar, que el orden en el que se presentan las categorías no tiene ningún significado.

En apuestas deportivas no es fácil encontrar casas que nos ofrezcan apuestas relacionados con variables en escala nominal. Uno de los pocos ejemplos que podemos encontrar son apuestas al primer evento que se puede producir en un partido de futbol. Bwin es una de las pocas casa en las que se pueden encontrar apuestas de este tipo y hace un par de semanas ofrecían lo siguiente para el partido entre el Cluj y el Chelsea (lo he seleccionado en honor a mi compañero Baldani que es un apasionado de la liga Rumana):

Primer evento en la primera parte

1. Tarjeta @ 1.7
2. Gol @2.65
3. Sustitución @15
4. Medio tiempo @8.5

Este es un claro ejemplo de variables en escala nominal. Se ofrecen 4 categorías diferentes con sus cuotas entre las cuales no existe ningún tipo de relación de orden, entendiendo por orden, el que una categoría sea mayor a otra. Evidentemente no se puede decir que tarjeta sea mayor que sustitución o que gol sea menor que medio tiempo.

Para realizar nuestro resumen utilizaremos los datos que ofrecía la propia Bwin. Allí podíamos encontrar los resultados de los dos equipos en sus seis ultimos encuentros y además entrando en cada uno de los partidos podíamos ver los detalles del mismo. Esta será nuestra fuente de datos para este ejemplo.

Iremos partido por partido apuntando el primer evento hasta obtener una columna con 12 datos (6 datos por cada equipo)

Una vez tenemos esto, el siguiente paso es construir un histograma y esto se puede hacer de varias formas en Excel. La que más utilizo, porque creo que es la más rápida y flexible es la tabla dinámica, aunque también se pueden usar otras como los subtotales, la función histograma implementada en el complemento de análisis de datos, la función de excel frecuencia() o la más simple contar.si(). Es esta última la que vamos a explicar en este ejemplo.

El resultado final que vamos a obtener es una hoja como esta:

En la que en la columna D tenemos los datos de los partidos, que hemos ido sacando de Bwin y en las columnas H-I-J-K tenemos los resultados.

Así, partiendo de la tabla de datos, vamos a crear la siguiente:

En la primera columna colocaremos los cuatro tipos de eventos. IMPORTANTE, la función contar.si() no distingue entre mayúsculas y minúsculas, pero si es sensible a los espacios entre palabras o al final de las mismas. Así que, lo que recomiendo, es copiar y pegar los identificadores de cada una de las categorías para no equivocarnos al teclear.

En el resto de la tabla introduciremos la siguientes fórmulas. Los $ supongo que sabeís para que sirven, y se colocan SOLO EN WINDOWS pulsando [F4] repetidas veces, para fijar la celda, la columna o la fila. Volveremos sobre esto en otras entradas.


La columna de frecuencias la obtendremos con la función contar.si() de Excel, que tiene dos argumentos. El primero es el rango donde se encuentran nuestros datos, y el segundo es el criterio, lo que queremos que Excel cuente. Para nuestro ejemplo el rango de datos siempre es el mismo y lo fijamos con los símbolos de $ para que no varíe al arrastrar la función y el segundo es el nombre de la categoría. Con esto conseguiremos que Excel nos cuente la cantidad de veces que aparece el nombre de la categoría en el rango de datos que le hemos dado. A esto habitualmente se le llama frecuencia.

En la siguiente columna hemos calculado un cociente entre la frecuencia de cada categoría y el total de elementos que tenemos. Esto representa la cantidad de elementos que tenemos de cada categoría con respecto al total. A esto se le llama frecuencia relativa y se suele representar en porcentajes, porque también coincide con la probabilidad de que se de un resultado de esa categoría.

Y con esto tenemos ya nuestro resumen gráfico en forma de histograma


Que podríamos representar también en diagrama de sectores:


Como podeis ver en este caso los % coinciden con las frecuencias relativas que hemos calculado en la tabla.

El último paso que nos quedaría sería el de utilizar estos datos para evaluar las cuotas que nos ofrecía Bwin. Si considerasemos como representativos estos seis partidos de cada equipo para evaluar el partido en cuestión, las cuotas que Bwin debería haber ofrecido serían las mostradas en la última columna de la tabla. Para su cálculo simplemente divdiremos 1 por la frecuencia relativa. Comparando estas cuotas teóricas con las ofrecidas por Bwin vemos que existe una discrepancia en la de Sustitución, que Bwin la ofrecía a 15, mientras que en nuestro cálculo habíamos obtenido 6. Esta sería para nosotros una apuesta de valor (value bet) y sería la que deberíamos elegir.

Antes de acabar puntualicemos varias cosas, por si las moscas.

1. Los datos de partida son inventados, pero las cuotas eran las reales
2. No es muy conveniente utilizar solo 6 partidos como un estimador razonable. Cuando se usan tablas de contingencia se habla de que hay que tener como mínimo 5 datos por cada casilla. En nuestro caso sería conveniente tener al menos 5 datos para cada una de las categorías, lo que solo se cumple para una de ellas.
3. Es muy probable que la value bet que obtengamos no sea la que tiene una probabilidad más alta de salir, lo que quiere decir que es probable que no salga. Pero, pero, pero, si seguimos utilizando este método y nuestros análisis son correctos, la frecuencia con la que se irán dando los aciertos hará que se compensen las pérdidas a largo plazo.

Creo que ha sido un pequeño ladrillo para comenzar la semana. Espero que no se haya dormido nadie. Hasta otra

3 Comentarios:

Buddhi dijo...

De ladrillo nada. Muy interesante.

Anónimo dijo...

Hola, otra vez respondo muy muy tarde, veo que la entrada fue hace 3 años. Pero tengo que preguntar para no quedarme con la duda:

1. ¿Que pasa cuando no hay datos históricos? por ejemplo, este mes culminó el Mundial sub 20 en Colombia, como calculo yo estos datos que aquí escribiste si estos equipos son la primera vez que juegan?

2. ¿Cómo hago el pronóstico cuando es el primer partido de todo el torneo? y nuevamente, con la hipótesis de que no hayan datos históricos, tomando como ejemplo el Mundial sub 20.

Como sabemos los equipos sub 20 son de corta trayectoria y no tienen datos históricos en el pasado para calcular la cuota.

Y una última pregunta, que quizás no aplique para esta entrada pero busqué una relacionada y no encontré:

3. He visto, por ejemplo en bwin.com que dice "¿que jugador marcará el primer gol?" ... como yo calculo las posibilidades que pepito perez va a hacer el primer gol en lugar de fabian?. Nuevamente, supongamos la hipótesis que no hayan datos históricos, como en el Mundial sub 20.

Esta duda me surgió ya que en bwin quise apostar en ese torneo, pero no supe por cuál ir, ya que los equipos sub 20 no tienen datos históricos para poder calcular sus probabilidades, así que me quedé con las ganas de apostar.

Gracias

Buzjss dijo...

Hola,

La finalidad de esta herramienta es tener una aproximación a la probabilidad real de un evento. Para ello se puede usar este método, que es realmente simple, u otros muchos. Las casas utilizarán sistemas mucho más complejos y con otro tipo de variables para poder estimar estas probabilidades.

Podrías hacer una pequeña aproximación utilizando los resultados históricos de ambas selecciones y hacer una 'ponderación' de los resultados en función del potencial del equipo contra el que han jugado. El problema es ¿como hacer la ponderación?.

Todo esto son hipótesis que deberían ser contrastadas con datos reales.

En cuanto al jugador que marca el primer gol, lo único que te puedo decir es que deberías hacer un listado de las posibles variables que afectarían a este suceso y utilizar un conjunto de datos históricos para 'entrenar' y establecer un sistema. Luego habría que validar el sistema con nuevos datos. No es tarea sencilla.

Un saludo