Representaciones gráficas de variables continuas

Seguimos con la estadística que la tenía un poco abandonada y volvemos con la representaciones gráficas de variables cuantitativas continuas. Para la representación gráfica estas variables podemos elegir una gran cantidad de gráficos. Los más útiles son los diagramas de distribución de frecuencias, frecuencias absolutas o relativas y acumulados o no, los diagramas de tallo y hoja (Steam and leaft plot en inglés) y los diagramas de caja y arbotante (box and whiskers plot). Como estos últimos tienen bastante que ver con el cálculo de valores medios y dispersión de los datos los dejaremos para cuando tratemos estos apartados en un futuro.

En esta primera entrada vamos a tratar exclusivamente de las distribuciones de frecuencia y como podemos realizarlas en Excel. Para ello vamos a utilizar el número de goles anotados por minuto en la primera parte de los partidos de primera división como ejemplo de aplicación. Los datos no son reales, pero para el que quiera y tenga tiempo en Betexplorer podeis encontrar toda la info, eso sí, hay que ir partido a partido.

Bueno supongamos que hemos hecho eso, hemos ido partido a partido copiando y pegando todos los datos de Betexplorer en Excel y al final tenemos algo así:


En la primera columna tenemos los minutos en los que se han marcado los goles y en la segunda tenemos el jugador que ha marcado.

Lo siguiente que debemos hacer es 'agrupar' los datos, pero antes tenemos que determinar el número de grupos o clases que vamos a hacer. Este es un paso realmente importante ya que si los grupos se hacen muy grandes, tendremos pocos grupos y muchos datos en cada grupo, se perderá información sobre la estructura de datos y si se hacen muy pequeños, muchos grupos y pocos datos por grupo, es difícil distinguir la tendencia de la distribución. Existen varias reglas para establecer el número de intervalos/grupos, la más extendida es la de hacer el número de grupos igual a la raiz cuadrada de la cantidad de datos disponibles. Otra regla que podemos también podemos utilizar es la regla de Sturges

Para nuestro ejemplo vamos a usar esta última, porque nos da una cantidad de grupos un poco menor que si utilizamos la de la raiz cuadrada. Para 350 datos que tenemos el número de grupos será N = 1 + 3.3 x log(350) = 9.39, aprox 9 grupos. Estos grupos es conveniente que sean de igual tamaño y mutuamente excluyentes, es decir, si tenemos registrados goles desde el minuto 0 al 45 deberemos tomar grupos de 45 / 9 = 5 Minutos. Y deberían ser 0-4, 5-9 ... Así, ningún intervalo es mayor que otro y no existen grupos que incluyan dos minutos iguales.

Ahora debemos calcular nuestra tabla de frecuencias en Excel. Y esto, como la mayoría de cosas en excel, se puede hacer de varias formas:

1. Usando la función frecuencia
2. Usando la función histograma que se encuentra dentro del complemento 'análisis de datos'
3. Usando tablas dinámicas
4. Usando subtotales
5. Usando la función contar.si

Yo voy a usar esta última, porque es la menos utilizada habitualmente en estos casos y además nos servirá para explicar una función de excel realmente potente, pero ya digo que cualquiera de las otras nos podría valer.

El resultado final es el siguiente.


En la primera columna tenemos los mintos empezando en el 0 y acabando en el 50. OJO esto es importante para el cálculo, no debemos acabar en el minuto 45 aunque en nuestros datos este sea el valor máximo. Veremos el por qué al analizar la fórmula de la columna Frecuencia Acumulada. Para el cálculo de la frecuencia acumulada usamos la función contar.si, que tiene dos parámetros. El primero es el rango de datos, en nuestro caso los datos están en el rango A1:A350. El segundo parámetro es el criterio para contar. Para la primera fila debemos contar todos las veces que aparecen números entre 0 y 4, es decir, número de minuto menor que 5. Esto lo podría haber hecho así directamente =contar.si(A1:A350;"<5"). Si utilizamos esta función obtendremos el mismo resultado, pero, en primer lugar, es más lento de programar, ya que debo ir cambiando el criterio para cada fila de mi tabla y en segundo lugar es mucho menos flexible. De la manera que lo hemos hecho cambiando el valor de las celdas de la columna E nos va a cambiar el criterio y nos acutalizará los datos automáticamente. Además la tabla la rellenamos mucho más rápidamente copiando la fórmula a toda la columna. El valor del minuto 50 lo necesitamos ya que el calculo del último intervalo excluye (el menor es estricto, no es menor o igual) al minuto 45 y muchos de los goles que tenemos contabilizados se han marcado en ese minuto, que incluye también los goles marcados en tiempo añadido.

La última columna es la frecuencia sin acumular y su cálculo es sencillo, como se muestra en la imagen. Con esto tenemos acabada nuestra tabla de frecuencias y podemos representar gráficamente los datos. El resultado final es el siguiente


Para el cálculo de las frecuencias relativas debemos dividir cada uno de los valores de nuestra tabla por el total de datos, en nuestro caso 350. Y las graficas que se obtienen son exactamente iguales lo único que nos cambiaría es la escala del eje Y, que pasaría a ser de 0 a 100%.

Bueno, lo dejamos aquí por hoy y si teneis alguna duda o quereís alguna aclaración ya sabeis como contactar conmigo. Un saludo.

Buscando la mejor cuota: Apuestas similares

Hace algún tiempo leí, no recuerdo bien donde, algo que me llamó mucho la atención. Las casas de apuestas tienen muchas ventajas sobre los apostadores, manejan más información y normalmente más precisa, tienen muchos datos para analizar y predecir resultados, tienen a mucha gente trabajando para ellos, ofrecen cuotas que por lo general tienen una esperanza de premio negativa..., pero hay una cosa que en la que los apostadores tenemos ventaja sobre las casas: las casas deben sacar cuotas por obligación. No hay elección, si quieren ganar dinero deben ofrecer cuotas, y muchas veces la mentalidad de la casa es ofrecer cuantas más cuotas mejor. Esto es un gran punto a favor del apostante, porque las cuotas no se pueden ofrecer a la ligera ya que algunas están relacionadas entre si. Es lo que yo llamo apuestas similares. Entre ellas distingo dos casos, las idénticas y las 'parecidas'. Vamos empezar con las primeras.

Las apuestas idénticas las podemos encontrar entre distintas casas de apuestas e incluso dentro de la misma casa. Las más evidentes son las que se dan entre apuestas a favor (back) y en contra (lay). Este último tipo de apuestas solo se pueden encontrar en casas de intercambio de apuestas del estilo de Betfair. La manera más sencilla de entender las apuestas en contra es pensar que cuando hacemos un 'lay' estamos apostando a algo que creemos que no va a suceder. Es decir, un lay a Federer @ 2.1 en su partido contra Nadal, significa que creemos que Federer no va a ganar a Nadal, o lo que es lo mismo que Nadal gana el partido (ofrecido @ 1.75). Así las apuestas idénticas en este caso serían:

Lay Federer = Back Nadal

El problema de este tipo de apuestas similares-idénticas es que no podemos comparar las cuotas directamente, como haremos con dos apuestas idénticas a favor (Back). Para poder determinar cual de ellas es más interesante debemos convertir el Lay a Back o viceversa, mediante la siguiente fórmula:

Back = 1 + 1/(Lay -1)

Así en el ejemplo anterior el

Back = 1 + 1/(2.1 - 1) = 1 + 1/1.1 = 1.91

¿Que quiere decir esto?, pues que la apuesta Lay Federer @ 2.1 es más rentable que el Back a Nadal a 1.75

Este tipo de apuestas similares también se pueden dar con apuestas a favor (back) solamente, bien en varias casas o bien en una misma.
  • Una apuesta a que ambos equipos NO marcan en el partido es idéntica a una apuesta a resultado 0-0.
  • Una apuesta a que en un partido a 3 sets Fernando Verdasco gana al menos un set es lo mismo que un handicap 1.5 a favor de Verdasco.
  • Un handicap 1:0 del Spartak sobre el Manchester es una apuesta idéntica a un 1X.
En cualquiera de estos tres casos una comparación directa de las cuotas nos valdrá para identificar la mejor de ellas.

Esta última apuesta también sería idéntica a dos apuestas individuales una al 1 y otra a la X. Pero en estos casos deberemos hacer un cálculo de la cuota equivalente. Veamos como se puede hacer con los datos del partido de Champions League entre el Lyon y el Liverpool:


Una vez tenemos calculadas las probabilidades de cada opción y las hemos transformado en probabilidades unitarias. El calculo de la cuota equivalente es sencillo, simplemente multiplicamos cualquiera de las probabilidades unitarias por su cuota:


Buscamos ahora la cuota para el 1X y la casa nos la da a 1.30, con lo que en este caso deberíamos optar por las apuestas individuales en lugar de jugar la combinada que nos propone la casa. El porcentaje del total apostado que debemos colocar a cada uno de los resultados es el que tenemos en la columna de probabilidad unitaria.

Con el sistema de combinar cuotas podéis sacar otras muchas apuestas idénticas, entre overs, resultado par o impar, o handicaps, y resultados exactos de partidos.

Lo vamos a dejar aquí por hoy porque no quiero hacer la entrada demasiado extensa y en la siguiente veremos las apuestas 'similares', que también su gracia.