Regressions

Reflexions amb dades

20 de març de 2015
8 comentaris

La teoria de la probabilitat i el Barça-Madrid

Els tertulians esportius són una espècie diferent. Més encara que els tertulians “especialistes” en política, els d’esports es poden permetre el luxe de dir qualsevol cosa (i, sovint, qualsevol cosa… i la cosa contrària alhora) sense que, aparentment, ningú s’aturi a passar-los factura (per exemple, quantificant com de sovint fiquen el rem).

Una alternativa a aquest panorama és discutir amb models matemàtics concrets (en què un fa hipòtesis que es poden verificar o desmentir amb l’experiència) i derivar-ne conclusions fent servir la teoria de la probabilitat (que, altre cop, permet fer prediccions quantitatives que es poden verificar o desmentir mitjançant l’experiència). I doncs, com es veu a través d’aquest prisma el Barça-Madrid de diumenge i, en general, el que queda de lliga?

En resum:

Segons un model matemàtic senzill i el tractament probabilístic més complet possible, el Barça té un 53% de probabilitat de guanyar el partit de diumenge contra el Madrid. El Madrid té un 23% de probabilitat de guanyar i l’empat és pràcticament igual de probable, amb un 24%. Tal com estan les coses, el Barça té un 64% de probabilitat de guanyar la lliga, per un 36% del Madrid (la resta d’equips tenen una probabilitat pràcticament igual a zero).

I pels valents:

Imaginem que un robot extraterrestre infinitament racional aterra a la Travessera de les Corts un dia de partit i, encisat pels rius de gent que entren i surten de l’Estadi, decideix parar atenció a això del futbol. Com que ha de marxar de la Terra just abans del clàssic de diumenge vinent, intenta formular un model matemàtic que li permeti predir qui guanyarà.

El nostre robot no ha escoltat mai les teories dels tertulians i, per tant, no sap que de tant en tant el Messi només pensa en el mundial, o que vomita, o que l’Alves vol marxar… de fet, no sap qui són tota aquesta gent: només sap que hi ha equips millors i equips pitjors; per tant, assumeix que cada equip té una certa “qualitat” (encara que no sap quina és). També descobreix que, quan va a un camp, el públic anima majoritàriament un dels dos equips i pensa que jugar amb tota aquesta gent animant bé deu ajudar; per tant, assumeix que jugar a casa dóna un cert avantatge (de magnitud també desconeguda). Finalment, s’adona que la sort juga un paper important i que, fins i tot quan juga a casa, un bon equip pot perdre amb un equip pitjor (l’efecte de la sort, més gran o més petit, també és desconegut).

Amb tot això, formula el model matemàtic més senzill possible: els resultat d’un partit depèn de la diferència de qualitats entre els equips, corregit pel factor camp i amanit amb un terme aleatori. Per exemple, si el Barça té qualitat 2, el Vila-real té qualitat 1 i el factor camp és +1, en un Barça-Vila-real el més probable seria que el Barça guanyés de dos gols (2-1+1=2), encara que a vegades guanyaria d’un o de tres, a vegades empataria o guanyaria de quatre… i si el factor sort és prou important, el Barça podria arribar a perdre de cinc gols, per dir alguna cosa.

Tenint en compte que no sap les qualitats dels equips, ni l’avantatge que dóna jugar a casa, ni la magnitud de l’efecte sort, i tenint en compte que és un robot perfectament racional, faria servir la teoria de la probabilitat per inferir el resultat del clàssic, qui guanyarà la lliga, o qualsevol altre cosa. La teoria de la probabilitat, al capdavall, és l’extensió de la lògica aristotèlica que ens permet raonar quantitativament sobre esdeveniments incerts.

I, doncs, quina probabilitat assignaria el robot, amb el seu model i havent vist les primeres 27 jornades de la lliga, a que el Barça guanyi el clàssic del cap de setmana vinent? El robot (qualsevol robot racional operant amb el model que he explicat) no té més remei que concloure que el Barça té una probabilitat del 53% de guanyar; l’empat i una victòria del Madrid són pràcticament igual de probables: un 24% i un 23% respectivament. Diguin el que diguin els tertulians (especialment després del partit), d’ençà de la jornada 20 el robot creu que una victòria del Barça és la més plausible de les possibilitats (tot i que entre la jornada 10 i la 19, el robot hagués hagut de concloure que el Madrid tenia més possibilitats de guanyar).

classic_new

I quina és la probabilitat que el Barça guanyi la lliga? Doncs un 64%; el Madrid té un 36% i la resta d’equips pràcticament zero. De fet, fins la jornada 25 el robot trobava més plausible que el Madrid guanyés la lliga, però amb la derrota contra el Bilbao i amb la pallissa del Barça a un equip de mitja taula com el Rayo (que, a més, posava el Barça al capdavant) va haver de canviar d’opinió.

standings_new

  1. I per fer això t’has basat en les quotes de les cases d’apostes, oi? xD Tot corregint que a cada quota li baixen lleugerament el premi respecte el que seria en cas de repartir el 100% de la recaptació.

    1. Doncs la veritat és que, com explico, només he fet servir els resultats de les primeres 27 jornades i el model que comento (un model “probit ordenat”, en llenguatge tècnic). La inferència que faig és la inferència completa dels posteriors mitjançant MCMC. Per altra banda, les quotes de les cases d’apostes podrien servir per estimar les probabilitats del clàssic, però òbviament no del resultat final de la lliga… a no ser que tu sàpigues les quotes de les cases d’apostes entre ara i el final de la lliga. Dit això, les estimacions que he vist de les cases d’apostes (Bwin, en particular) estan en la línia del que proposo jo, però donen un pèl més de probabilitat a la victòria del Barça (un 57% contra el meu 53%, si recordo bé).

    1. Gràcies pel comentari, Enric. Fixa’t, però, que com que només tenim un model (enlloc de tenir una col·lecció de models, cadascun amb la seva predicció) i que com que l’estimació la faig amb moltes mostres de MCMC, l’error és realment molt petit. Evidentment, l’estimació pot ser dolenta si el model és dolent però, donat el model, l’estimació de la probabilitat pràcticament no té error.

    2. Més que intervals de confiança, el que vols si fas estimació bayesiana són intervals de credibilitat: els marges que indiquen, p.ex, a cada x, el punt y_sup que deixa el 25% de les mostres de MCMC per sobre i el punt y_inf que deixa el 25% de les mostres per sota.

      PD: Acabo de descobrir el teu bloc i m’encanta! 🙂

    3. Però en les quantitats que grafico és més senzill encara: quan dic que la probabilitat de que el Barça sigui millor que el Madrid és “y”, vull dir que en una fracció “y” de les mostres del MCMC la qualitat del Barça és més alta que la del Madrid. En altres paraules, les coses que grafico són integrals sobre el “posterior”… I gràcies pel comentari!

  2. Bon dia i bona hora. Acabo de fer una referència al vostre article al meu bloc que té com a finalitat treballar les matemàtiques a cicle superior de primària. Si teniu alguna cosa en contra feu-m’ho saber i eliminaré l’article. En cas contrari moltes gràcies per donar-me l’oportunitat de comentar-lo i fer-lo servir a classe.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

Aquest lloc està protegit per reCAPTCHA i s’apliquen la política de privadesa i les condicions del servei de Google.

Us ha agradat aquest article? Compartiu-lo!