La distribución de Poisson

La distribución de Poisson lleva el nombre de su descubridor que la publicó en 1838, junto con su teoría de probabilidad en su trabajo Recherches sur la probabilité des jugements en matières criminelles et matière civile ("Investigación sobre la probabilidad de los juicios en materias criminales y civiles"). En un primer momento, la utilizó para predecir el resultado de las votaciones de los jurados en un veredicto. A partir de ahí, su uso se extendió a la ciencia de la artillería y actualmente se usa en multitud de situaciones, como, número de fallos en un proceso productivo, cantidad de llamadas telefonicas recibidas en un periodo de tiempo, número de bacterias en un especímen determinado, cantidad de estrellas en un volumen de espacio, numero de mails recibidos al dia, número de goles marcados en un período de un partido de la NHL e incluso, en 1898, se utilizó para determinar la probabilidad de que un soldado del ejército Prusiano muriese a consecuencia de la coz de su caballo.

La distribución de Poisson es una distribución se utiliza para modelizar eventos discretos. Eventos en los que sus resultados solo pueden ser números enteros mayores o iguales a 0. En un partido de fútbol no se pueden marcar 3.2 goles ni en una hora se pueden recibir 12.7 llamadas por teléfono. Esto no quiere decir que un equipo no pueda marcar una media de 3.2 goles por partido y una operadora no pueda recibir una media de 12.7 llamadas a la hora. Son dos cosas diferentes, una es el resultado de un determinado evento (un partido de futbol), que siempre será un número entero mayor o igual a 0, y otra la media de los resultados individuales. No se deben confundir.

Se ha demostrado estadísticamente que la distribución de Poisson se ajusta relativamente bien para predecir el número de goles marcados en partidos de hockey. En el caso del fútbol el ajuste empeora un poco y muchos autores indican que para mejorar sus predicciones se debe realizar una corrección para resultados de 0 goles e incluso de 1 gol. Para este ejemplo nosotros utilizaremos la distribución sin ningún tipo de ajuste.

Su fórmula es la siguiente:

Prob(B=k) = exp (-m) x m^k / k!

Siendo m la media y k el número de eventos sobre los que estamos calculando la probabilidad. Y esta ecuación se lee como la probabilidad de que aparezcan k sucesos en un evento con media de apariciones m.

Veamos un ejemplo:

Supongamos que el Botijos F.C. ha jugado 20 partidos y ha marcado 28 goles. ¿Que probabilidad hay de que en el siguiente partido marque exactamente 1 gol?

La media de goles por partido es de 28 / 20 = 1,4 goles por partido

Ahora tenemos dos alternativas:

1. Ir al excel y colocar =Poisson(1;1,4;Falso)= 0.345 (esta función es para el Excel en castellano para los que tengan la configuración en ingles, el paréntesis quedaría, (1,1.4,False))

2. P(B=1) = exp (-1.4) x 1.4^1 / 1! = exp (-1.4) x 1.4 = 0.345

Es decir la probabilidad de que el Botijos FC marque un gol es de 34.5%

Si lo que queremos saber es la probabilidad de que el Botijos meta al menos un gol. También se puede hacer por dos caminos, pero voy a usar el excel que es el más rápido. Para hacerlo debemos usar el suceso complementario. No voy a explicar esto ahora porque me llevaría una buena parrafada, pero es así:

P(B>=1) = 1 - P(B=0)

P(B>=1) = 1 - Poisson(0;1,4;Falso) = 1 - 0.25 = 0.75 = 75%

Veamos ahora su aplicación al resultado de un partido. ¿Que probabilidad hay de que el partido sea under 1.5 si juega contra el Chinchorro FC, sabiendo que marca 2 goles por partido de promedio?

Para calcular esto, lo primero que debemos hacer es obtener el conjunto de resultados que cumplen en under 1.5. Son 3:

0-0, 0-1, 1-0

Calculamos ahora la probabilidad de cada uno de ellos y la probabilidad del under será la suma de todos ellos.

P(B=0, C=0) = Probabilidad de que el Botijos marque 0 goles x Probabilidad de que el Chinchorro marque 0 goles = Poisson(0;1,4;Falso) x Poisson (0;2;Falso) = 0.25 x 0.135 = 0.033

Es decir la probabilidad del 0-0 es de un 3.3%

P(B=0, C=1) = Poisson(0;1,4;Falso) x Poisson (1;2;Falso) = 0.25 x 0.41 = 0.1
P(B=1, C=0) = Poisson(1;1,4;Falso) x Poisson (0;2;Falso) = 0.59 x 0.135 = 0.08

P(Under 1.5) = 0.033 + 0.1 + 0.08 = 0.213 = 21.3%

Aplicando el mismo razonamiento del suceso complementario tendríamos que la probabilidad del over 1.5 sería de 1-0.213 = 0.787 = 78.7%

Siguiendo este mismo procedimiento se pueden modelizar todos los posibles resultados del partido para determinar, probabilidades de que gane el equipo de casa, empate, gana el equipo de fuera e incluso calcular la probabilidad de otras líneas de Over/Under, como la 2.5.

Solo un apunte final, en estos casos se suele calcular la probabilidad del resultado individual de 0, 1, 2, 3, 4, 5 y más de 5 goles. Para calcular esta última se hace también por el suceso complementario

P(B>5)= 1 - P(B<=5) y la P(B<=5) se calcula en excel de forma muy sencilla:

P(B<=5) = Poisson (5; media; VERDADERO)

El verdadero de la última parte de la fórmula indica que es una probabilidad acumulada, de 0 hasta 5. Justo lo que necesitamos.

Con esto acabamos este pequeño inciso sobre la distribución de Poisson. En diferentes entradas del curso básico analizaremos un poco más en profundidad algunos conceptos de esta entrada y veremos también otro tipo de distribuciones muy utilizadas como puede ser la distribución normal. Hasta entonces un saludo.

EDITO 22/07/10: Al final he encontrado una forma de añadir hojas de cálculo al blog y he creado una mini hoja Excel para calcular los resultados de un partido de Futbol a partir de la media de goles marcados por cada equipo. La hoja la teneís aqui.

29 Comentarios:

Baldani dijo...

Buena explicación de la distribución de Poisson. Me la apunto amigo.

Buzjss dijo...

Me alegro que te haya sido de utilidad. Cuando lo habia vuelto a leer no sabía si quedaba demasiado claro el tema. Es complicado de explicar en un monólogo. Es mas facil si te interrumpen con preguntas en medio del post, pero eso, por ahora no se puede. Para la siguiente versión de blogger, tal vez ;-)

Espero seguir viendote por aquí. Un saludo.

Baldani dijo...

Bueno, esa interactividad me parece demasiado pedir. Pero se entiende de sobra tu entrada.

Por cierto, en esta disfribución de Poisson, para el caso del cálculo de la probabilidad de que no haya goles, sería independiente establecer en excel el atributo VERDADERO o FALSO ya que no existen datos acumulados ¿verdad?

Buzjss dijo...

Exactamente, con el 0 da igual colocar VERDADERO o FALSO en la fórmula porque como bien dices no hay datos acumulados antes del 0.

Anónimo dijo...

GRACIAS Buzjss!

Espero algún día poder aportar algo, de momento sólo puedo leer y aprender.


Att. Galois.

danita dijo...

por fa ayundeme aresolver 3este ejercicio..tengo q entregarlo ..pa la universidad..ggracias...mi correo es danita214@yahoo.es...gracias

Como una forma de hacer control de calidad en una empresa comercializadora de puertas de madera, el dueño exige que antes de salir de la fábrica cada puerta sea revisada en busca de imperfecciones en la superficie de madera. El encargado de control de calidad encontró que el número medio de imperfecciones por puerta es 0,5. El dueño decidió que todas las puertas con dos o más imperfecciones sean rechazadas y sean devueltas para su reparación.
a. ¿Cuál es la probabilidad de que una puerta falle la inspección y sea devuelta para su reparación?
b. ¿Cuál es la probabilidad de que una puerta pase la inspección?

Buzjss dijo...

Bueno, no te voy a hacer los deberes de la uni, porque eso lo tienes que hacer tu, pero te puedo dar una pequeña ayudita.

Lo primero, este es el típico problema que viene perfecto para explicar la diferencia entre número de defectos en una pieza y número de piezas defectuosas. El primer caso, el numero de defectos en una pieza, sigue una distribución de Poisson, mientras que el número de piezas defectuosas sigue una distribución Binomial.

Está muy bien, pero es poco real, el problema real sería determinar cuantos defectos haría que la pieza sea defectuosa para minimizar los costes por garantias y por retrabajar las piezas defectuosas. Ese sí es un problema real. El que te han puesto es una tontuna, porque si el encargado sabe el número de defectos que hay por pieza también sabe las piezas que tienen 2 o más defectos y con ello el % que te piden. Así que lo más sencillo es decirle al encargado que cuantas piezas tienen más de 2 defectos, lo dividimos entre el total de piezas contabilizadas y así tenemos la probabilidad que nos pide.

Como lo debes calcular tu, pues debes calcular la probabilidad de que una pieza tenga 0 defectos, con la fórmula de la distribución de Poisson: P(B=0) = exp (-0.5) x 0.5^0 / 0! = exp (-0.5) = 0.6065

Luego calculas P(B=1) y la suma de ambas probabilidades es la probabilidad de que una puerta pase la inspección.

La probabilidad de que falle es la complementaria = 1 - Prob que pase

Espero que te valga. Un saludo

Anónimo dijo...

buenas para saber si un wequipos va a marcar mas de 2 goles ¿la formula seria la siguiente?
P(B>=2) = 1 – P (B=1)

Buzjss dijo...

Te falta el termino de 0 goles. Cuando pretendes calcular la probabilidad de que un equipo marque más de x goles lo que debes hacer es restarle a 1 la probabilidad de que meta 0, 1 ... hasta x. Luego para tu caso sería :

P(B>=2)= 1 - P(B=0) - P(B=1)

Esto es para calcular la probabilidad de que meta DOS O MAS GOLES. Si quieres calcular la probabilidad de que meta MAS de dos goles, el simbolo es mayor solo, y en este caso debes restar la probabilidad de que meta 2 goles tambien.

Un saludo

valdetoc dijo...

Si quieres calcular la probabilidad de que meta MAS de dos goles, el simbolo es mayor solo, y en este caso debes restar la probabilidad de que meta 2 goles tambien.
¿no seria igual que la formula anterior?
Un saludo

Buzjss dijo...

No, porque falta el termino de los dos goles. La probabilidad de que meta más de dos goles sería:

P(B>2) = 1 - P(B=0) - P(B=1) - P(B=2)

En el caso del comentario anterior habiamos puesto la probabilidad de que meta DOS o mas goles. Esto también es equivalente a la probabilidad de que meta más de un gol. Es decir:

P(B>=2) = P(B>1) = 1 - P(B=0) - P(B=1)

Anónimo dijo...

tengo un problema de probabilidad y no se como resolverlo. es el siguiente.


En una empresa constructora el numero promedio de trabajadores que no llega a su sitio de trabajo es de 3 personas por dia.

El admnistrador de la construcora desea tener personal de guardia que cubran a quienes faltan en n 95% de las veces.

¿cuantas personas deben integrar la guardia?


si lo pueden resolver. podrian enviar el procedimiento y resultado a este correo:

latinlover_aka@hotmail.com

gracias.
att. Efra.

Buzjss dijo...

Ya has visto en otro comentario que no me voy a dedicar a resolver problemas, lo siento, eso son cosas que debeis hacer vosotros, pero si has entendido la entrada no deberías tener problemas en calcular la solucion.

valdetoc dijo...

Otra duda que tengo, si quiero calcular el under/over 2,5 de un partido, seria(c=equipo casa,v=visitante)

p(c=1)*p(v=1)=x
p(c=2)*p(v=0)=y
p(c=0)*p(v=2)=z

p(under 2,5)=x+y+z
p(over 2,5)=1-x+y+z

¿es correcto?

Muchas gracias por vuestras respuestas.

Buzjss dijo...

Te faltaría el termino P(c=0)*P(v=0)=k

La suma de todos ellos sería P(under 2.5):

P(Under 2.5)= x + y + z + k

La Probabilidad del over sería:

P(Over 2.5)= 1 - P(Under 2.5)

valdetoc dijo...

Me acabo de liar mas (y eso que me lo he leido todo unas cuanta veces)
No entiendo, ¿por que no se calcula P(c=1)*P(v=0), P(c=0)*P(v=1) y si P(c=0)*P(v=0)?

¿como se calcula entoces el under/over 3,5 y el under/over 4,5?

Muchas gracias y perdona por las molestias.

Buzjss dijo...

Claro que se calculan esos también, eso me pasa por no repasar bien los comentarios ;-) y hacer las cosas deprisa y corriendo.

Lo mejor para no liarnos es hacerlo paso a paso.

Lo primero, hay que ver cuales son los resultados que corresponden al Under 2.5

0-0, 1-0, 0-1, 1-1, 2-0, 0-2

Creo que ahora no se me olvida ninguno. Y calculamos todas las probabilidades de esos resultados y las sumamos.

Así obtenemos el P(Under 2.5), luego la probabilidad del Over es 1 menos la probabilidad del Under.

Ahora creo que ya esta correcto, para que no te lies.

Un saludo

Jose Luis dijo...

ahora me ha quedado claro.

Un saludo y gracias

Anónimo dijo...

y no tienes la distribucion de poisson en exel.. para cargar los goles o los indices de goles?????
gracias y S2

Buzjss dijo...

Lo siento pero no lo tengo hecho, lo preparé para la entrada solamente. la verdad es que lo que pides es un buen ejercicio para aplicar lo explicado en la entrada. Intentalo y si no puedes me lo dices.

Un saludo

Anónimo dijo...

Gracias Buzjss!
Tu artículo me sirvió de mucho para aplicarlo en los diferentes ejercicios de la u, pues en otras páginas las explicaciones son un poco díficiles de entender.......
Atte, TATY

Buzjss dijo...

De nada TATY, me alegra saber que las entradas sirven para algo y que la gente puede sacar partido de ellas. Un saludo.

valdetoc dijo...

PAr acalcular los porcentajes de 1, X y 2, seria :
Para el 1= sumar los porcentajes de los resultados de victoria(1-0, 2-1, 3-1, etc, para la X=(0-0,1,1, etc) y para el 2=(0-1, 1-2,1-3,etc).

Muchas gracias y un saludo.
Valdetoc

valdetoc dijo...

Perdonar, la anterior entrada era una pregunta

Buzjss dijo...

Exactamente valdetoc, así se calcula. Eres un experto ya en las probabilidades y Poisson ;-)

valdetoc dijo...

Muchas gracias, ya me gustaria saber solo una pequeña parte de lo que tu sabes.

Un saludo.
JL

valdetoc dijo...

¿La valores esperados de la distribucion, tambien se calcularia sumando todos los valores parciales?

Muchas gracias.

Anónimo dijo...

Hola, veo en la fecha que esta entrada es algo antigua, apenas vengo a conocer esta página, ojalá no sea algo tarde para comentar:

¿esta fórmula solo aplica cuando la trayectoria del equipo ha sido la misma?. Cuando me refiero a trayectoria, quiero decir, cuando ha jugado siempre la misma nómina, y en las mismas condiciones del campo.

Es decir, hagamos un hipotético que Argentina juegue en La Paz, Bolivia ... como todos sabemos la altitud hace poner en desventaja al equipo visitante, en este caso, Argentina ... e hipotéticamente Messi no juega el partido, pero si ha venido jugando y ganando en los anteriores , entonces tenemos la situación en que Argentina ha venido ganando los anteriores partidos porque ha tenido a Messi y ha estado en ventaja con el factor campo, pero en este caso todo juega en su contra, sin Messi, y con una meteorología a su desventaja, en base a esta hipótesis, como se aplicaría la fórmula de Poisson?, aplica?

PD: Lo anterior fue una hipótesis, se podría aplicar esto a cualquier otro partido u equipo.

Muchas gracias.

Buzjss dijo...

Hola, si, la entrada es antigua pero sigue siendo válida. Respondiendo a tus preguntas, la estimación será más precisa cuanto más cercanas a las condiciones pasadas sean las condiciones del partido que queremos estimar. Como tu bien comentas, si en los partidos de Argentina, siempre ha jugado Messi y nunca ha jugado en altura como visitante y usamos estos datos para calcular la media de goles marcados, estamos partiendo de unos datos que no se ajustan a las condiciones del partido que queremos estimar, con lo que la estimación será más imprecisa.

En esta entrada: http://buzjss.blogspot.com/2009/12/la-cristianodependencia-del-real-madrid.html

Puedes ver a lo que me refiero. Dependiendo de si juega Cristiano o no, el valor de la media de goles es diferente, con lo que al aplicar Poisson deberías tener en cuenta este dato.

Un saludo