Análisis Exploratorio de Datos (EDA)

El manejo de grandes cantidades de datos en bruto suele ser complicado y engorroso. A nuestra vista le resulta mucho más sencillo extraer conclusiones de gráficos que de datos colocadoe en forma de tabla. En un gráfico se puede comprobar más rápidamente como se agrupan los datos, si aparecen tendencias, ciclos, o si existen posibles errores. Vamos a ver todo esto más claro con el siguiente ejemplo.

Tomaremos los datos de temperaturas medias de un municipio de La Coruña que aparecen en la siguiente web: http://www.tutiempo.net/clima/A_Coruna_Alvedro/2007/80020.htm

En los meses de Enero, Marzo y Mayo las temperaturas medias por día han sido las siguientes:


En la tabla es difícil apreciar tendencias o puntos discrepantes, sin embargo si representamos gráficamente estos mismos datos la cosa cambia.


Con el gráfico se aprecia que el mes de enero ha tenido mucha más variabilidad que el resto, el mes de marzo ha sufrido un descenso continuado de las temperaturas, mientras que en mayo ha sido el mes mas caluroso y bastante estable.

Es evidente que el gráfico es mucho más fácil de interpretar que la tabla llena de números, pero estos tienen sus restricciones también. Si en lugar de representar 100 datos, como hemos hecho, hubiesemos tenido que representar un conjunto mucho mayor, el gráfico tampoco nos daría demasiada información ya que nos aparecería una nube de puntos tan densa que no apreciaríamos nada. Para condensar toda esa información y mostrarla de manera mucho más fácil de interpretar se utilizan tanto los resúmenes gráficos como los numéricos.

Durante los siguientes posts vamos a abordar ambos tipos de resúmenes, que se encuentran enmarcados dentro de lo que comunmente se llama Analisis Exploratorio de Datos (EDA en Inglés). Comenzaremos con los gráficos, para posteriormente comentar los resumenes numéricos, e intentaremos en todos ellos utilizar ejemplos de datos obtenidos de competiciones deportivas.

0 Comentarios: