Representaciones gráficas de variables continuas

Seguimos con la estadística que la tenía un poco abandonada y volvemos con la representaciones gráficas de variables cuantitativas continuas. Para la representación gráfica estas variables podemos elegir una gran cantidad de gráficos. Los más útiles son los diagramas de distribución de frecuencias, frecuencias absolutas o relativas y acumulados o no, los diagramas de tallo y hoja (Steam and leaft plot en inglés) y los diagramas de caja y arbotante (box and whiskers plot). Como estos últimos tienen bastante que ver con el cálculo de valores medios y dispersión de los datos los dejaremos para cuando tratemos estos apartados en un futuro.

En esta primera entrada vamos a tratar exclusivamente de las distribuciones de frecuencia y como podemos realizarlas en Excel. Para ello vamos a utilizar el número de goles anotados por minuto en la primera parte de los partidos de primera división como ejemplo de aplicación. Los datos no son reales, pero para el que quiera y tenga tiempo en Betexplorer podeis encontrar toda la info, eso sí, hay que ir partido a partido.

Bueno supongamos que hemos hecho eso, hemos ido partido a partido copiando y pegando todos los datos de Betexplorer en Excel y al final tenemos algo así:


En la primera columna tenemos los minutos en los que se han marcado los goles y en la segunda tenemos el jugador que ha marcado.

Lo siguiente que debemos hacer es 'agrupar' los datos, pero antes tenemos que determinar el número de grupos o clases que vamos a hacer. Este es un paso realmente importante ya que si los grupos se hacen muy grandes, tendremos pocos grupos y muchos datos en cada grupo, se perderá información sobre la estructura de datos y si se hacen muy pequeños, muchos grupos y pocos datos por grupo, es difícil distinguir la tendencia de la distribución. Existen varias reglas para establecer el número de intervalos/grupos, la más extendida es la de hacer el número de grupos igual a la raiz cuadrada de la cantidad de datos disponibles. Otra regla que podemos también podemos utilizar es la regla de Sturges

Para nuestro ejemplo vamos a usar esta última, porque nos da una cantidad de grupos un poco menor que si utilizamos la de la raiz cuadrada. Para 350 datos que tenemos el número de grupos será N = 1 + 3.3 x log(350) = 9.39, aprox 9 grupos. Estos grupos es conveniente que sean de igual tamaño y mutuamente excluyentes, es decir, si tenemos registrados goles desde el minuto 0 al 45 deberemos tomar grupos de 45 / 9 = 5 Minutos. Y deberían ser 0-4, 5-9 ... Así, ningún intervalo es mayor que otro y no existen grupos que incluyan dos minutos iguales.

Ahora debemos calcular nuestra tabla de frecuencias en Excel. Y esto, como la mayoría de cosas en excel, se puede hacer de varias formas:

1. Usando la función frecuencia
2. Usando la función histograma que se encuentra dentro del complemento 'análisis de datos'
3. Usando tablas dinámicas
4. Usando subtotales
5. Usando la función contar.si

Yo voy a usar esta última, porque es la menos utilizada habitualmente en estos casos y además nos servirá para explicar una función de excel realmente potente, pero ya digo que cualquiera de las otras nos podría valer.

El resultado final es el siguiente.


En la primera columna tenemos los mintos empezando en el 0 y acabando en el 50. OJO esto es importante para el cálculo, no debemos acabar en el minuto 45 aunque en nuestros datos este sea el valor máximo. Veremos el por qué al analizar la fórmula de la columna Frecuencia Acumulada. Para el cálculo de la frecuencia acumulada usamos la función contar.si, que tiene dos parámetros. El primero es el rango de datos, en nuestro caso los datos están en el rango A1:A350. El segundo parámetro es el criterio para contar. Para la primera fila debemos contar todos las veces que aparecen números entre 0 y 4, es decir, número de minuto menor que 5. Esto lo podría haber hecho así directamente =contar.si(A1:A350;"<5"). Si utilizamos esta función obtendremos el mismo resultado, pero, en primer lugar, es más lento de programar, ya que debo ir cambiando el criterio para cada fila de mi tabla y en segundo lugar es mucho menos flexible. De la manera que lo hemos hecho cambiando el valor de las celdas de la columna E nos va a cambiar el criterio y nos acutalizará los datos automáticamente. Además la tabla la rellenamos mucho más rápidamente copiando la fórmula a toda la columna. El valor del minuto 50 lo necesitamos ya que el calculo del último intervalo excluye (el menor es estricto, no es menor o igual) al minuto 45 y muchos de los goles que tenemos contabilizados se han marcado en ese minuto, que incluye también los goles marcados en tiempo añadido.

La última columna es la frecuencia sin acumular y su cálculo es sencillo, como se muestra en la imagen. Con esto tenemos acabada nuestra tabla de frecuencias y podemos representar gráficamente los datos. El resultado final es el siguiente


Para el cálculo de las frecuencias relativas debemos dividir cada uno de los valores de nuestra tabla por el total de datos, en nuestro caso 350. Y las graficas que se obtienen son exactamente iguales lo único que nos cambiaría es la escala del eje Y, que pasaría a ser de 0 a 100%.

Bueno, lo dejamos aquí por hoy y si teneis alguna duda o quereís alguna aclaración ya sabeis como contactar conmigo. Un saludo.

4 Comentarios:

under over dijo...

Muy interesante el post. Lástima no haberlo sabido antes y te hubiera enviado los partidos de la liga con los minutos de los goles de esta temporada para que hubieras utilizado datos reales.

un saludo

Buzjss dijo...

Muchas gracias, si quieres me los puedes mandar y actualizo los gráficos, o los podemos utilizar para el siguiente post. Un saludo

Salva dijo...

Como ya te comentado en otro de tus post, tu blog es simplemente brillante, el mejor en lengua castellana sin ningún tipo de duda. Me pasaré muy a menudo por aqui, para releer y asimilar un sinfin de información variopinta e interesante que nos dejas en cada una de tus entradas. Muchas felicidades, compañero.

Buzjss dijo...

Salva, muchas gracias por tus comentarios. Me alegra saber que hay gente que le sirva lo que yo escribo. Un saludo