Tinc la paraula

... i ho aprofito per dir la meva.

Les fórmules de dadescovid.cat tenen errors

0

M’he estat mirant al portal dadescovid.cat del departament de salut de la Generalitat de Catalunya la definició dels diferents termes per a entendre què són. Les fórmules, en alguns casos, estan tan malament que no cal ser gaire expert per a veure-ho.

Si us connecteu a dadescovid.cat/documentacio podreu veure una taula on hi ha la descripció dels diferents termes i la fórmula que fan servir. Us en mostro algunes que directament estan malament, i d’altres on la definició que en fan crec que no és adequada. Vegem-les:
  • IA14: (casos confirmats en els últims 14 dies)*100.000. Si us fixeu, faltaria dividir pel nombre total de població.
  • Variació de casos: [(t(-1) – t)/t(-1)]*100. En primer lloc, a la resta l’ordre hauria de ser a l’inrevés. Comparem les dades d’avui “t” respecte les d’ahir “t(-1)”. Si no, el signe de si tenim increment o decrement de casos surt equivocat. A més, hauria de dir: [(c(t) – c(t-1))/c(t)]*100, on c(t) seria el nombre de casos a l’instant “t”, ja que el que volem veure si creix o decreix és el nombre de casos, i no pas el temps (que ja sabem que sempre s’incrementa).
  • % PCR/TA positives: (total PCR+ o TA+/total PCR o TA)*100. Estaria bé utilitzar parèntesis per a deixar la fórmula més clara i fer servir el signe de suma: (PCR_positives + TA_positives)/(PCR_fetes + TA_fetes)*100.També seria convenient no utilitzar el símbol “/” per a indicar “o”: PCR/TA. Aquesta nomenclatura es pot confondre amb la divisió. Potser millor “PCR&TA”
  • Velocitat de progagació – Rt: Rt = N(t) + N(t-1) + N(t-2) / N(t-5)+ N(t-6) + N(t-7) Aquesta fórmula té dos problemes. El primer és que li falten parèntesis per tenir cert sentit. Millor: Rt = (N(t) + N(t-1) + N(t-2)) / (N(t-5)+ N(t-6) + N(t-7)). El que fa aquesta fórmula és sumar els casos d’avui, ahir i abans d’ahir i dividir pel nombre de casos sumats de fa cinc, sis i set dies. D’aquesta manera s’elimina una mica la variacions diàries ja que es fan mitjanes de 3 dies. Però això té el següent problema.
    El segon problema de la fórmula és que no té en compte que la seqüencia de dades sobre la qual s’aplica té una component pseudo-peròdica de 7 dies. Si mireu les dades diàries a dadescovid.cat/diari veureu que els dissabtes hi ha menys casos positius (es deuen fer menys proves). Els diumenges encara hi ha menys casos i els dilluns hi ha un pic (les proves que es deuen fer al malalts del cap de setmana) i de dimarts a divendres el nombre de casos és alt i similar en tots els dies.

    La fórmula de la Rt no té en compte els dies 3 i 4 anteriors al dia zero i això fa que l’estimació de la Rt resultant depengui del dia de la setmana en el que fem l’estimació. Per exemple, si estimem la Rt un diumenge farem servir les dades de diumenge, dissabte i divendres al numerador de la fórmula, i les de dimarts, dilluns i diumenge passat al numerador. L’efecte de cap de setmana estarà més representat al numerador que no pas al denominador. I això farà que la Rt tingui un biaix que depèn del dia de la setmana pel qual s’estima.   Des del meu punt de vista tindria més sentit, per exemple, comparar la suma de casos dels darrers set dies amb els set dies anteriors a aquests. És a dir, si avui és dissabte, d’avui fins diumenge passat respecte dissabte passat fins a l’altre diumenge. D’aquesta manera apliquem una “running window” (o “moving average” de 7 dies a un senyal que té una component imporant a 7 dies. I això fa que filtrem perfectament l’efecte de setmana. Els que heu estudiat processament del senyal o esteu estudiant telecomunicacions sabreu que es tracta d’un filtre FIR rectangular de 7 mostres. I que la resposta freqüencia té forma de ‘sinc’ amb el primer zero a freqüencia 1/7.Si us hi voleu entretenir podeu fer servir aquesta eina per a calcular la resposta freqüencial de filtres FIR. Heu de triar “moving average”. fiiir.com

Que la Rt oficial no està ben calculada ja fa dies que ho diu el professor Josep Salvedra al seu compte de twitter  (@MiaSalavedra) i publica un estimador de la Rt no afectat per l’efecte setmanal.