Resumenes gráficos de variables en escala ordinal

Los gráficos utilizados en el resumen de datos para variables en escala ordinal son los mismos que para el caso de variables en escala nominal, es decir, histogramas o gráficos de barras y diagramas de sectores. La única diferencia la encontramos en la interpretación del histograma. En los gráficos de escala nominal, la posición de cada una de las categorías era indiferente, mientras que en este caso la posición nos informa sobre el orden en el que se encuentran las categorías.

Veamos un ejemplo. Utilizamos los mismos datos que en la entrada anterior de representaciones gráficas:

Este gráfico

Es exactamente el mismo que este otro:

Lo único que hemos hecho es reordenar las categorías. Sin embargo con datos en escala ordinal, la forma del gráfico si que es importante, ya que las categorías SI estan ordenadas.

Ejemplo posición en parrilla de salida de Alonso y Piquet

Aquí se puede ver que las barras naranja (Alonso) se encuentran agrupadas más a la izquierda (puestos mejores en parrilla) que las barras azules (Piquet).

El objetivo de esta representación gráfica es simplemente mostrar diferencias en las distribuciones. Podemos encontrar diferentes formas de distribuciones a simple vista, pero para confirmar estas diferencias habría que hacer uso de los test de hipótesis, que supongo veremos en posteriores entradas.

Lo único que haremos por ahora es estimar probabilidades y comprobar que se ajustan a las cuotas ofertadas por las casas. Así, recuerdo un pick que puse en Forobet al comienzo de la temporada de F1 sobre un H2H entre Alonso y Piquet. La cuota estaba en torno al 1,15 para la clasificación y a mi me parecía un regalo. Era una 'chiquicuota', como se le suele llamar, pero para mi, esta cuota no debería haber pasado de 1,01 o 1,02. Y los datos al final de la temporada así lo han demostrado. Nelsiño no ha ganado ningún H2H en clasificación a Fernando. Si la cuota hubiese sido correcta, supondría una probabilidad de 1/1,5*Fracción de pago (suponemos un 85%) = 74%

Multiplicando este 74% por el total de carreras (18) supondría un 13-5 a favor de Alonso, cuando ha sido un 18-0. Después de hacer un simple test de hipótesis con estos datos, podemos decir que hay evidencias estadísticas que demuestran que la cuota colocada no era correcta. Es decir, habiamos encontrado un autentico value. Con lo que la apuesta estaba más que justificada.

9 Comentarios:

Anónimo dijo...

"hay evidencias estadísticas que demuestran que la cuota colocada no era correcta"

Es una falacia afirmar esto con una muestra de 15 sucesos.

Buzjss dijo...

'Querido' anónimo, la verdad es que tu comentario tiene su mérito, porque es realmente dificil demostrar más cosas con menos palabras.

En primer lugar, demuestras que no tienes ni idea de test de hipótesis, porque con los datos del post podrías haber hecho alguno y ver que resultados obtienes.

En segundo lugar, tampoco andas muy sobrado de estadistica, porque la gente que TRABAJAMOS en este mundo sostenemos nuestras afirmaciones con datos, y no veo ninguno en tu comentario.

En tercer lugar, de lo que si que andas sobrado es de mala idea, porque tu comentario solo tiene la finalidad de dejarme como mentiroso. Y eso no lo voy a permitir.

En este blog hablaremos de estadistica y apuestas, y sobre estos temas intentaremos ayudar en todo lo posible. No tengo ningún problema en debatir sobre las entradas o sus conclusiones. Y si me demuestran, CON DATOS, que estoy equivocado, no me cuesta lo más minimo admitirlo y rectificar.

Así que de aquí en adelante no voy a malgastar el tiempo en replicar a este tipo de comentarios y LOS BORRARE DIRECTAMENTE. No aportan absolutamente nada y su finalidad es dar por saco.

Como comprenderás después de todo esto, cuando afirmo algo lo hago con datos, no como tu. Y si no lo puse en el post fue porque lo dejaba para alguna entrada posterior, pero ya que lo dices aqui lo tienes. Dudo mucho que lo sepas interpretar, aunque siempre podrás pedirle ayuda a tu profe particular:

---- TEST DE HIPOTESIS ------

Test and CI for Two Proportions

Sample X N Sample p
1 0 18 0.000000
2 5 18 0.277778


Difference = p (1) - p (2)
Estimate for difference: -0.277778
95% CI for difference: (-0.484695, -0.0708609)
Test for difference = 0 (vs not = 0): Z = -2.63 P-Value = 0.009

Fisher's exact test: P-Value = 0.045

------------------

Como puedes ver con 18 datos, no 15, se pueden demostrar muchas cosas. Eso a muchos 'enterados' que se mueven por estos mundos no les cabe en la cabeza, porque menos de 10000 datos no son nada para ellos.

Por último, no pasa nada por firmar los comentarios, porque como comprenderás yo se perfectamente por donde vienen los tiros, pero a otros lectores les puede resultar un poco más complicado identificarte.

no me da la gana firmar dijo...

No digo directamente que seas mentiroso, eso lo dices tú. Deberías de centrarte más en justificar objetivamente tus asertos y no meterte con el personal, que ya hace bastante leyéndote y haciendo el esfuerzo de escribir comentarios, cosa que poca gente hace.

No entiendo el copia y pega de tu programa. Pero sí te diré algo sobre los test. Una de las premisas del test es que las muestras sean aleatorias y esta no lo es. Por ejemplo, imagina que quiero hacer un test para demostrar que la cara sale más que la cruz en una moneda y voy tirando. Espero a que salgan 12 caras seguidas (algo que pasa cada X tiempo) y entonces digo: "empecé el test hace 12 tiradas, lo otro era calentamiento!!!!". Luego p-values, confianzas, copia y pega del ordenador, etc...

En tu caso es lo siguiente:

La muestra no es aleatoria porque se ha elegido interesadamente una que ha dado resultados positivos en el caso más favorable de entre estos 4 que pusiste en el hilo de Forobet que citas:

Alonso - Piquet: Alonso @1.15
Hamilton - Kovalainen: Hamilton @ 1.18 (tres cuartos de lo mismo, Papa Hamilton, etc...)
Rosberg - Nakajima: Rosberg @ 1.25
Webber - Coulthard: Webber @1.28

Por ejemplo Kovalainen ha ganado a Hamilton 3 de 18 (sin contar una que penalizaron al negro 10 puestos). Como eso no demuestra nada de que cuota 1.18 es valiosa, sino más bien viene a indicar que es aproximadamente correcta, no lo eliges.

Nakajima a Rosberg le gano 5 de 18 (1.38 minimo para no palmar con Rosberg, cuando sugerias entrar a 1.25).

Coulthard le gana a Webber 3 de 18, por lo que el 1.28 sí que hubiese salido bien, aunque con 1 más que le ganase Coulthard ya sería cuota justa, por lo que posiblemente no pasaría el contraste ese... Por cierto, que forma de dormitar el Coulthard este año!!! Se notaba que el tío se retiraba...

Y otra cosa, aun en el supuesto de que el contraste fuese realizado con una muestra aleatoria, esos 15 aciertos de 15 no demuestran con una confianza decente que 1,02 es su cuota correcta. Pero vamos, que da igual, porque la muestra no es aleatoria y eso invalida el tema.

Por eso aunque no soy profesional de la estadística y NO TE LLAMO MENTIROSO, me parece que le echas un poco de morro. Aunque bueno, supongo que el que no esté libre de culpa que tire la primera piedra.

Buzjss dijo...

Dejando a parte las disquisiciones semánticas, aceptaré que no me quieras llamar mentiroso, aunque tu primera frase así me lo pareciese.

No tiene nada que ver que una de las premisas de cualquier test sea que las muestras deben estar tomadas 'de manera aleatoria' y además que sean representativas, con tu razonamiento. El test que hemos hecho es para ver que la cuota de ese H2H estaba mal colocada, como así es. Podríamos haber hecho lo mismo para comprobar el resto de H2H que coloqué en su dia y veríamos que los otros están más ajustados.

Si te das cuenta, el motivo del ejemplo no es justificar que todas mis apuestas son buenas. Para eso me harian falta muy pocas muestras y saldria algo parecido al ejemplo Sino demostrar que hay veces que los bookies se equivocan y es ahí donde debemos llegar.

Por último con un test de hipótesis no podemos demostrar NUNCA que 1,02 está bien puesta, ni esa ni cualquier otra. Su uso es precisamente el contrario, encontrar evidencias suficientes para poder afirmar con un % de probabilidad que las dos cosas comparadas no son iguales.

Pero bueno, eso lo veremos en alguna entrada posterior y espero que sigas por aqui para leerla y corregirme si me equivoco.

Un saludo y gracias por identificarte, 'no me da la gana'.

Sofocles dijo...

En general creo que te equivocas con la sobrevaloración de la estadística para las apuestas, que tiene su utilidad, pero no en los ejemplos simples que estás poniendo (este, apuestas especiales de tenis), sino en la construcción de modelos matemáticos para explicar situaciones complejas.

Y estos modelos matemáticos nunca se basan en 15 datos. Tomar unos pocos datos

1º) no asegura la hipótesis de normalidad
2º) como dice Heráclito, "un hombre no se baña dos veces en el mismo río" (no sé si me entiende...)

Anónimo dijo...

Ah y otra cosa, sigo pensando que el test de Alonso es incorrecto por lo ya dicho.

Creo que con mi ejemplo de la moneda se entiende muy bien la diferencia entre lo que es hacer un test sobre una muestra aleatoria y hacer un test sobre una muestra que conocemos que ha salido cojonuda!!

Pero qué te voy a contar de los estadistas que no sepas ya con todos los chistes que hay de estadistas!!!! Para el que no lo sepa, la única utilidad de un estadista es que ayuda a saber quien gana unas elecciones 12 horas antes. El resto de lo que hacen es inutil. Las gente le pagan para que justifiquen las cosas que interesa que sean justificadas, como en el caso de la bondad de la cuota de Alonso. O sea, un estadista es más o menos como Rappel y la bruja Lola, le dice a la gente lo que quieren oir y lo justifican de alguna forma.

Buzjss dijo...

"En general creo que te equivocas con la sobrevaloración de la estadística para las apuestas"

No pretendo sobrevalorar la estadistica para apuestas, lo único que busco es explicar algunos conceptos estadísticos y como pueden ser utilizados en apuestas deportivas. Esto no quiere decir que haciendo todo lo que digo en el blog se vaya a ganar dinero con las apuestas. Son dos cosas muy diferentes.

En cuanto a los modelos son una parte de las muchas áreas en las que se puede aplicar la estadística y, evidentemente, con 15 datos no puedes crear ningún modelo consistente. Pero el ejemplo del post no es un ejemplo de modelos, es un ejemplo de diferencias entre proporciones de acierto estimadas y reales. Y en este caso para determinar diferencias nos sobran con esas 18 muestras.

Por otro lado la normalidad en los datos es un requisito para alguno de los test estadísticos, pero no para todos ellos. Si solo se pudiesen hacer test y modelos con datos normales, ¿para que sirven el resto de distribuciones?. Como sabras para la NHL el modelo que se utiliza es un Poisson, no un modelo Normal.

La estadistica te proporciona herramientas, tu debes seleccionar una u otra dependiendo del caso, igual que ocurre en la vida real. Unas veces usas el martillo y otras el destornillador. Lo que tienes que tener claro es cuando debes usar cada uno de ellos.

"Sigo pensando que el test de Alonso es incorrecto por lo ya dicho."

No es un test sobre una muestra sesgada como dices con el ejemplo de la moneda. He tomado todos los datos disponibles, no hay más que 18 carreras en la temporada.

"Pero qué te voy a contar de los estadistas que no sepas ya con todos los chistes que hay de estadistas!!!!"

Pues si, tienes razon, hay muchos usos para la estadistica y uno de ellos es el que comentas. Y si eso te lleva a pensar que no sirve para nada, yo no puedo convencerte de lo contrario. Yo tengo otra opinión y datos que me sirven para justificarla.

Anónimo dijo...

Es sesgada. De 72 has cogido 18.

Buzjss dijo...

Vamos a ver si te lo puedo explicar con el ejemplo de las monedas. Tienes 4 monedas diferentes y SOLO puedes hacer 18 tiradas con cada una.

Tras 18 tiradas observas las proporciones de cara y cruz de cada una de ellas y en una has visto 18 caras y ninguna cruz. Cuando el fabricante te habia dicho que debería ser 15-3. El resto ronda el 15-3.

El test lo que te dice es que ESA MONEDA, ES DIFERENTE al resto y no pertenece al grupo de 15-3 con un nivel de significación del 95%. Es un test para cada moneda no uno para el conjunto completo.