Archivos compartidos en Google Drive

Cuando empecé a compartir ficheros a través del blog, creía en que la gente los utilizaría siguiendo las instrucciones que daba para su uso, pero evidentemente eso era demasiado pedir y cada dos por tres los ficheros aparecian totalmente modificados, con formulas cambiadas y en algunos casos, borradas. Así que decidí protegerlos todos ellos.

Para poder utilizarlos los teneis que descargar. Para ello deberéis ir a Archivo > Descargar > Microsoft Excel


El P-Value en las apuestas

Bueno, como comentaba en la anterior entrada, vamos con esta segunda parte en la que seguiremos hablando de los test de hipótesis y el P-Value, pero ahora centrado en el tema de las apuestas, que es el motivo por el que me planteé escribir estos dos post.

Ya vimos en la entrada inicial, que el P-Value se obtenía como resultado de un test de hipótesis con el que valorábamos las diferencias encontradas entre DOS variables. El P-Value nos da una indicación sobre la probabilidad de que esas diferencias que hemos encontrado al hacer el test sean reales o sean fruto del azar. Si las diferencias encontradas son muy grandes, el P-Value será muy pequeño y, por tanto, nos está indicando que la probabilidad de que esas diferencias sean fruto del azar es muy baja.

Hay una gran variedad de test de hipótesis y cada uno de ellos se debe usar en función de las variables o los datos que tengamos que comparar. Podemos usarlos para comparar si el cambio de entrenador en el Real Madrid ha influido en la cantidad de goles que anota y que recibe el equipo, como hicimos en este post, o si el rendimiento de un bateador de la MLB podría estar afectado por el color de sus ojos, o si el Real Madrid, en su época, tenía una cristiano-dependencia. En todos ellos los test de hipótesis se usaron para comparar dos situaciones diferentes y concluir si las diferencias entre ellas eran estadisticamente significativas o no. En algunos casos vimos que SI, que había unas diferencias importantes y los P-Value que obteníamos eran muy bajos, con lo que SI podíamos decir que, con un grado de confianza del 95%, esas dos situaciones eran diferentes, pero en otros casos no encontramos diferencias lo suficientemente importantes.

Lo mismo nos pasaba en la entrada anterior, donde hice el supertest UsainBoltiano y me comparaba con velocista jamaicano. El test prácticamente no encontró ninguna diferencia entre Usain y yo. Cuando pasa esto, NO PODEMOS DECIR que esas dos variables que comparamos sean IGUALES, es decir, no podíamos decir que yo soy Usain Bolt, y debemos decir que no hemos encontrado diferencias suficientes para poder asegurar que son distintas. En estas circunstancias, nuestro siguiente paso seria valorar la 'potencia de nuestro test'. Debemos confirmar, si nuestro test es lo suficientemente potente como para encontrar las diferencias que estamos buscando.

Este es el primer problema de los test de hipotesis, que SIEMPRE comparan algo para buscar diferencias, y si no se encuentran esas diferencias, tenemos que confirmar si no las hemos encontrado porque en realidad no las hay o no las hemos encontrado porque nuestro test era una castaña (como asi era en el test de Usain Bolt).

El segundo problema de los test de hipótesis es SABER QUÉ COMPARAMOS. Y aquí es donde entra el tema de las apuestas.

Hace unos meses me topé con un post en Twitter, que me dejó un poco mosca, en el que un tipster hablaba de sus resultados y del P-Value.  Y el remate final fue cuando vi este mensaje de la gente de Pyckio. En ese momento, me quede como un conejo cuando le dan las largas. Hacian un reto contra uno de sus mejores tipsters en el que el ganador se iba a valorar en función del P-Value. 

Me puse a investigar y descubrí que hay un fichero Excel creado por Miguel Figueres que introduciendo 4 datos te devuelve un P-Value. Este P-Value traducido al lenguaje apuestil representa la probabilidad de que los resultados de tu estrategia de picks se deba al azar. Fascinante!!!!.

Pues manos a la obra, voy a meter mis datos a ver que pasa, 975 apuestas, Yield de 0.5, Promedio ponderado de apuestas 3,5 y stake medio 1:


Le doy al enter.... y tras unos segundos de tensa espera, aquí tengo mi resultado:


P-VAlue de 0,000%, eso no lo supera ni el super tipster de Pyckio, soy un TOTAL PRO!!!. Con estos datos estoy seguro que la gran mayoría de vosotros seguiríais mis picks a ciegas. Pues craso error.  Esos picks han sido, 974 apuestas a cuota 2 con stake 1 en la que solo he acertado UNA!!! y, como ya estaba hasta las narices de perder, tras 974 apuestas hice la apuesta 975, que fue una megacombinada a  cuota 1500 y me tocó la lotería, como al finlandés con el podio de la F1 en Monza hace unos dias. Mas azar que esto no puede haber en una estrategia de apuestas, y sin embargo el resultado de los cálculos de fichero me dice que NO, que mis resultados no pueden ser por suerte. ¿Como se explica esto?.

Pues muy fácil, el test que hace el fichero es un test en el que se comparan los resultados de mis apuestas con una función que podemos llamar apuestas medias ponderadas, en mi caso, los resultados de mis apuestas no se parecen ni por lo más remoto a esa función, con lo que el P-Value es enano. ¿Quiere decir eso que mis resultados no han sido fruto de la casualidad?, PUES NO, NO y MIL QUINIENTAS VECES NO. Lo que quiere decir es que los resultados de mis apuestas no se parecen en nada a la función con la que lo comparo y punto.

Así que sintiéndolo mucho, por ahora no he encontrado a nadie que tenga la varita mágica del P-Value en las apuestas, sencilla y llanamente porque NO SE PUEDE MODELIZAR LOS RESULTADOS DE LA FUNCION AZAR que serían los que tendríamos que comparar con nuestras apuestas.

Podría haber un caso en el que se podría hacer algo pero eso lo dejo para otro post, si a alguno de vosotros os interesa.



Los Test de Hipotesis, el P-Value y Usain Bolt

Usaint
Hace algunos años, en este post, explicaba cómo se podía hacer un test de normalidad en Excel y en él hacía mención a lo que en estadística inferencial se llama el p-value. El p-value, como su propio nombre indica, es un 'valor' que se obtiene como resultado de un test de hipótesis, en el que se suele plantear una disyuntiva entre dos alternativas. 
Voy a intentar ser lo más elemental posible en este post para que se pueda entender de manera fácil. 
Imaginemos que lo que queremos analizar es si yo soy Usain Bolt o no. Para ello haremos un test en el que planteamos dos hipótesis:
  • La hipótesis nula (H0) sería que yo soy Usain Bolt
  • La hipótesis alternativa (H1) sería que no lo soy
 Ahora nuestro test de hipótesis lo que hace es: 
  • Vale, voy a darte el beneficio de la duda y vamos a partir de la base que SI lo eres. Ahora voy a usar mis métodos para intentar encontrar pruebas (diferencias) y dependiendo de lo grandes que sean esas diferencias te diré si deberías rechazar H0 o no.  ¡¡OJO!!, no digo aceptar, digo rechazar o no, la explicación a esto la veréis más abajo.
Bien, pues vamos con nuestro test que pretende encontrar esas diferencias. El test consiste en las siguientes 10 preguntas:
  1. ¿Eres hombre?
  2. ¿Eres negro?
  3. ¿Tienes dos piernas?
  4. ¿Has asistido alguna vez a unos juegos olímpicos?
  5. ¿Tienes hermanos?
  6. ¿De pequeño jugabas al futbol?
  7. ¿Te gustaría jugar en el Manchester United?
  8. ¿Te gusta la música?
  9. ¿Juegas al dominó?
  10. ¿Has corrido alguna vez la prueba de 1500 m?
 Las respuestas a esas preguntas si se las hiciésemos a Usain serían todo Sies menos la última que es un No.
Si me las hago a mí, la respuestas son todo sies menos la segunda y la última.
Es decir que el 90% de mis respuestas coinciden con las de Usain. Este test, no ha conseguido encontrar practicamente ninguna diferencia entre Usain y yo. Con estos resultados, el p-value que obtendríamos estaría bastante por encima del 0.05 que suele ser el valor de corte utilizado para rechazar o no la hipótesis nula.
A la vista de estos datos, MUCHA GENTE diría, como el p-value es mayor que 0.05 (lo que se denomina nivel de significación) aceptamos H0 como válida, lo que equivale a asegurar que SOY USAIN BOLT.
Lamento decepcionaros, pero evidentemente no lo soy.
Uy, pero entonces, ¿Que ha pasado?. Pues muy fácil, mi test es tan sumamente malo que no encontraría diferencias significativas entre cualquier hombre de este país y Usain Bolt. Así de sencillo.
Cuando obtenemos este tipo de resultados en un test de hipótesis, EN LUGAR DE ACEPTAR H0, lo que se DEBE DECIR es que no hemos encontrado diferencias suficientes para RECHAZAR H0 y lo que nos debemos plantear en este caso es si nuestro test es suficientemente potente como para encontrar esas diferencias. Como todos vosotros coincidiréis y viendo esta patata de test, la respuesta a la pregunta es un rotundo NO.
Cualquiera de vosotros puede encontrar otra batería de 10 preguntas, o de menos incluso, que permita identificar, con una certeza casi absoluta, si la persona que responde al test es o no es Usain Bolt. He de reconocer que me ha costado encontrar 10 preguntas para hacer el chapuza test este, buscando información sobre Usain hay miles de cosas que preguntar que nos distinguirían de inmediato entre uno y otro.
Como no quiero hacerlo muy largo, por hoy, lo dejamos aquí y en el siguiente post veremos la relación entre el p-value y las apuestas, que es algo que en Twitter está muy de moda.

Aplicacion de Poisson en el Futbol y otros deportes

Sois muchos los que me estáis pidiendo que os de acceso a ficheros de Excel que tengo colgados en el drive, y a otros que, por motivos varios, han desaparecido de la web. Estoy ya bastante desconectado de las apuestas, porque, os digan lo que os digan, los únicos que ganan en esto de las apuestas son las casas. Lo digo con conocimiento de causa y después de que me hayan cerrado decenas de cuentas por ganar dinero, la última sin ir mas lejos me la cerraron después de hacer menos de 20 apuestas y con un beneficio de unos 50 Euros.

Cuando la casa detecta que puedes ser un riesgo para ellos, te cierran la cuenta (como me hicieron en William Hill) o te dejan apostar cantidades ridículas de dinero (como me hicieron los de Bet365). Después de esta advertencia cada uno que haga lo que crea conveniente, pero ya os digo que todo aquel que os diga que gana dinero de manera constante con las apuestas os estará mintiendo el 95% de las veces.

Volviendo al tema inicial, tengo un montón de ficheros Excel con datos, estadísticas y estrategias, que si tengo tiempo iré compartiendo por el blog. Uno de los que más me pedís es el de calculo de probabilidades de Poisson, y es el primero que os compartiré. Como comento en la entrada inicial sobre este asunto:

Solo es necesario rellenar las cuatro celdas con los partidos jugados por cada equipo y los goles anotados. El resto se calcula automáticamente.

Y la idea sería apostar a aquellos resultados o eventos en los que la cuota que nos indica el libro de excel sea MENOR que la cuota que nos ofrece la casa de apuestas.

Espero que os sirva

Enlace al fichero:
https://drive.google.com/file/d/1YsK_AefR39nG2UbA-wJKD1beGKCFssmI/view?usp=sharing

Estudiar el pasado puede definir el futuro - Parte 2

7 días después estamos de vuelta para completar el post que inicié el fin de semana pasado. Como recordáis tomamos los datos de la web European Centre for Disease Prevention and Control para hacer las predicciones y los gráficos que os muestro en estas dos entradas.

La pregunta que lanzábamos hace una semana era, ¿Se puede predecir el comportamiento de la evolución de casos en los distintos países?. Vosotros mismos la vais a poder responder si continuáis leyendo. La zona sombreada en amarillo son los datos nuevos de esta semana.

  • Italia

A Italia la dejamos en su día 27 y su gráfica merece un optimismo moderado, se ha ido despegando de la curva ajustada y da señales de una bajada en la cantidad de contagios, lo que es una buena señal.

  • ALEMANIA

A Alemania la dejamos en su día 22 y la evolución es positiva, como en Italia, su gráfica en azul (casos reales) se va alejando de la curva de ajuste. Buena señal también.

  • CHINA

China llevaba mucha ventaja al resto de países en la gráfica, y como podéis ver sus casos reales se han estabilizado por completo. Todas sus acciones han dado resultado y se puede decir que la pandemia en este país está bajo control.

Y ahora vamos con nuestros campeones

  • ESTADOS UNIDOS
Su maravilloso presidente, pasó olimpicamente de aprender de lo que estaba sucediendo en otros países y no tomó ninguna medida. Hace una semana dijimos que en 7 días superarían los 100.000 infectados, y en siete días se plantaron en 104.000, hoy van por los 124.000 y subiendo religiosamente pegados a su curva de predicción, aunque, hay que decirlo, por debajo de ella. Dentro de lo malo lo menos malo.

  • ESPAÑA

 Y por último ¿que ha hecho España?, pues salirse, como una campeona!!
Como nuestros compañeros los yankis seguimos nuestra peregrinación por la curva de predicción, pero, no conformándonos con eso, la mejoramos!!!. Y nuestros gobernantes diciendo que ya se ven indicios de mejora en alguna comunidad. Es increíble. El hormigón armado que se gastan nuestros y políticos en su rostro, para sí lo querrían muchas de las constructoras que estos días van a tener que dejar a toda su plantilla en casa.

Si vamos a las previsiones hechas hace una semana este es el resultado:

Dia Pred Real Error Porc (%)
Domingo 24160 24892 732,0 3,0%
Lunes 28630 28538 -92,0 -0,3%
Martes 33680 33055 -625,0 -1,9%
Miércoles 39370 39639 269,0 0,7%
Jueves 45730 47576 1846,0 4,0%
Viernes 52824 56154 3330,0 6,3%
Sábado 60700 64025 3325,0 5,5%

Hasta el pasado miércoles íbamos copiando la curva casi al pie de la letra, pero los tres últimos días hemos despegado. Yo lo dejo aquí porque se me puede ir la tecla y soltar algún improperio.

Señores.... disfruten lo votado.

Estudiar el pasado puede definir el futuro - Confucio

Hace tiempo que tengo el blog abandonado por razones varias, pero el momento actual creo que bien merece una entrada nueva. Estamos viviendo una situación excepcional, que nos marcará y recordaremos durante toda nuestra vida y me duele en el alma que ver como se colapsan hospitales, como se incrementa día tras día el número de victimas ante la pasividad o lentitud en la toma de decisiones.

En esta entrada no voy a hablar de apuestas deportivas, obviamente no estamos en el tiempo ni el lugar para ello, lo que voy a plantear es la necesidad de estudiar y aprender, de analizar datos, de hacerse preguntas y de buscar soluciones.

Todos los datos que he utilizado los podéis encontrar en la web del European Centre for Disease Prevention and Control, desde donde se puede descargar un fichero Excel con toda la información sobre casos detectados y fallecidos por la pandemia del COVID-19.

No me enrollo mas y comenzamos. Como muchos de vosotros ya sabréis este virus es especialmente peligroso por la tasa de contagio que tiene. La OMS estima que esta tasa de contagio (R0) oscila entre 2 y 3, lo que significa que cada persona contagiada con el virus puede a su vez contagiar a 2 ó 3 personas más. Para que nos hagamos una idea, la gripe, por ejemplo, tiene una tasa de 1.5.

Esta tasa de contagio no es fácil de calcular pero, vamos a intentar estimarla con los datos facilitados por el ECDC para varios países, en concreto, China, Italia, Alemania, España y Estados Unidos.

El día 1 en los gráficos corresponde al primer día en el que los casos acumulados superan los 20 contagiados.

Empezamos con nuestros vecinos Europeos.
  •  ITALIA:

La gráfica azul representa los datos reales mientras que la naranja son los datos ajustados a una función exponencial cuya expresión es:


Donde x es el numero de días transcurridos, c es una constante para ajustar el punto inicial de la curva y b es lo que podríamos llamar el ratio de contagios. El ajuste de la curva como podéis ver es prácticamente perfecto (lo he hecho en Excel usando el Solver, por no alargar el post no pongo aquí todo el desarrollo).

Para Italia estas tres variables toman los siguientes valores:
c=1495.73 a=0.19 y b=3.76
  • ALEMANIA

El ajuste en este caso no es tan bueno, pero vemos que también sigue una curva exponencial cuyos parámetros son: c=0 a=0.0031 y b=5.02
Lo más llamativo de este caso es que el valor del ratio de trasnsmision ha subido a 5.02 que hará que el ascenso de los casos será mucho más acentuado.

Y en ESPAÑA, ¿COMO ESTAMOS?

  • ESPAÑA
Pues tenemos un ajuste prácticamente perfecto, y nuestros parámetros son:
c=28.88 a=0.18 y b=3.82
Estos datos son practicamente CALCADOS a los de Italia, aunque nosotros estamos en el dia 21, mientras que ellos están en el 28. ¿que quiere decir esto? pues que SI NO HACEMOS NADA MAS, las previsiones para los próximos dias son (hoy estamos a Domingo 22 de Marzo de 2020): Domingo 24160, Lunes 28630, Martes 33680, Miércoles 39370, Jueves 45730, Viernes 52824, Sábado 60700

Espero equivocarme, pero, como dicen en el anuncio... yo ahí lo dejo.

Nos quedan ver dos paises importantes.

  • ESTADOS UNIDOS

Otro ajuste impecable, pero este MUCHO MAS PELIGROSO, ya que sus parámetros son: c=0 a=0.0003 y b=6.03. 
La falta total de coordinación y medidas contra el virus va a hacer que su crecimiento sea mucho más acentuado que en Europa, y el modelo predice que dentro de 7 días el número de infectados superará los 100.000


  • CHINA
El modelo predice prácticamente sin fallos desde el dia 1 al 22 (mas o menos donde estamos nosotros ahora) con parámetros c=0 a=3.42 y b=3.00 muy parecidos a los de Italia y España. Pero a partir del dia 22 la cosa cambia.

La gráfica empieza a desviarse de la predicción y sobre el dia 30 comienza a aplanarse. SEÑORES DEL GOBIERNO, hagan el favor de averiguar que hizo CHINA en esos días previos y COPIEMOS la estrategia para parar este terrible goteo diario de muertes.

Este POST tendrá otro de continuación dentro de una semana, cualquier comentario es bienvenido. Hasta entonces, cuidaos mucho y espero volveros a ver a todos dentro de 7 días.

Los peligros del YIELD

Hola de nuevo. Volvemos después de una 'pequeña' parada del blog con un tema que siempre me ha gustado que es origen de múltiples debates y alguna que otra discusión. Nuestro querido YIELD.

El YIELD es una de las medibles más utilizadas e incluso para muchos, el sanctasanctórum del mundo de las apuestas. Supongo que la mayoría habrá oído hablar alguna vez sobre ella y sabrá que su cálculo se realiza de la siguiente forma:

Yield = Beneficios / Cantidad total invertida.

Normalmente el resultado de este cociente se expresa en % y representaría al porcentaje de beneficios obtenidos por cada unidad apostada. Es decir que, si vemos que alguien tiene un YIELD del 5% lo que nos está indicando es que por cada 100 uds apostadas ha obtenido un beneficio de 5.

La interpretación, como puede verse, no es demasiado complicada pero su uso como variable para comparar la efectividad entre tipsters tiene alguna que otra pega. Si fuese una variable robusta permitiría establecer un criterio objetivo para la clasificación de TIPSTERS o para evaluar los resultados de nuestras estrategias de apuestas, pero esto, como veremos más adelante, esto no es así. Reduciendo a un solo número tanto cuotas, como cantidades apostadas y número de aciertos, se consigue tener una visión más sencilla de los resultados pero, por el contrario, se produce una degeneración en la información. Vamos a verlo con un ejemplo.

Supongamos que hemos hecho el seguimiento de dos tipsters durante 10 apuestas, y el primero de ellos ha obtenido un Yield de 9.0% mientras que el segundo lo ha mejorado y ha llegado al 11.0%. Los dos son unos valores buenísimos y si nos guiamos exclusivamente por el Yield deberíamos decir que el tipster 2 'es mejor' que el tipster 1. Según este cálculo, su sistema de apuestas genera mejores resultados, en teoría. Pero, ¿es esto realmente cierto?. Comprobemos que ha sucedido:

Analizamos más detalladamente los resultados de cada uno, para ver que factor de los tres (las cuotas, el stake y  el porcentaje de aciertos) influye en esta diferencia .

En primer lugar vemos que ambos han apostado a eventos Over/Under que se pagaban a cuota 1.9 en los dos casos, con lo que parece que las cuotas no han sido la fuente de variación para el Yield.

En cuanto al segundo factor, la gestión del bank (stake o cantidad apostada en cada apuesta), ambos han optado por una gestión de bank idéntica y han arriesgado un 10% de su capital en cada apuesta. Tampoco parece ser que la gestión del bank haya influido en el resultado del yield

Nos queda por último el % de aciertos de cada uno. Este, por eliminación, debe ser el factor determinante,  pero, vemos con asombro que ambos han acertado 6 de las 10 apuestas que han realizado, con lo que el porcentaje de aciertos tampoco debería ser un factor.

En resumen, dos tipsters, apostando a las mismas cuotas, con la misma gestión de bank y el mismo porcentaje de aciertos TIENEN DISTINTO YIELD!!. Y para aumentar más la intriga si cabe, puedo decir que HAN CONSEGUIDO EL MISMO BENEFICIO AL FINAL DE LAS 10 APUESTAS.

¿Como es posible?. Aquí os dejo los números:


La única diferencia entre un tipster y el otro ha sido EL ORDEN EN EL QUE SE HAN IDO ALTERNADO FALLOS Y ACIERTOS.

Pero la cosa no queda ahí, si cambiamos la gestion del bank y optamos por un stake plano de 0.71 uds. obtendremos para cualquiera de ellos el mismo beneficio final (dejo el cálculo para el ávido lector) pero ahora el YIELD ha subido al 14% y además en este caso el YIELD es constante e independiente del orden en el que se han ido produciendo los fallos y aciertos.

Todos estos motivos hacen que el YIELD para mi sea una variable secundaria para el análisis de estrategias de apuestas. Si la única información que tengo es el propio valor, no le suelo dar demasiada importancia, me sirve únicamente para saber que la estrategia puede ser viable, pero nada más. Si lo que pretendo es estudiar varias estrategias de apuestas lo primero que hago es calcular el YIELD con una estrategia de STAKE PLANO, así elimino la influencia de la distribución de aciertos. En estas circunstancias el YIELD ya me resulta de mayor utilidad.

Con este artículo no pretendo desterrar al YIELD como medible, sino dar a entender que no es oro todo lo que reluce entrono a él. y que hay que tener Mucho Ojo con el YIELD, con su cálculo y mucho más ojo todavía con su interpretación.