La pandemia de las malas estadísticas. (todo cambió 3 semanas atrás)
En mi país todo cambió hace 3 semanas, y factible es que el mundo no vuelva a ser el que conocíamos.
La forma en que pensamos en un mundo moderno post-industrializado se caracteriza por una abstracción conceptual creciente. El método científico ha transformado nuestro mundo, y ha transformado la forma en que pensamos sobre el mundo en el día a día. Piaget llamó a esto la Etapa operativa formal: pensamos manipulando conceptos abstractos separados de ejemplos de la vida real. Esto era absolutamente ajeno a nuestros antepasados no muy lejanos, como se ve en experimentos en aldeas remotas de la Unión Soviética al borde de la industrialización.
La abstracción está en todas partes: mientras que el porcentaje de palabras apareció casi en ninguna parte hace solo 100 años, ahora aparece alrededor de cada 5000 palabras en el texto promedio en inglés, lo que representa el 0,02 por ciento de todas las palabras.
En cierto modo, nos vemos obligados a pensar de manera abstracta: vivimos en un mundo diferente a los vistos por nuestros antepasados evolutivos, y son principalmente nuestras facultades para el pensamiento conceptual las que intentan mantenerse al día con la rapidez con la que cambia nuestro entorno, y a qué tipo de ámbito digital basado en el conocimiento que cambia. Pero no es una tarea trivial. Nuestros cerebros no están optimizados para ser racionales y objetivos: Wikipedia enumera alrededor de 200 sesgos cognitivos, patrones psicológicos en los que nuestra percepción distorsiona la realidad y nos mantiene alejados del juicio racional.
Photo by Brian McGowan on Unsplash
La falsa confianza de los números
El mundo, tal como lo encontramos, es incierto. Las teorías neurocientíficas modernas ven nuestros cerebros como dispositivos que constantemente intentan tomar decisiones óptimas bajo incertidumbre.
En un momento en que una pandemia se está extendiendo por todo el mundo, amenazando vidas, trabajos y la vida social tal como la conocemos, la incertidumbre está en todas partes.
La abstracción del mundo elimina el ruido y el ruido de la realidad, fingiendo una sensación de objetividad frente a la incertidumbre. Los números emiten una impresión de indisponibilidad, de darnos algo estable a lo que aferrarnos. Se sienten reconfortantes para nosotros, y ¿por qué no deberían hacerlo? Los números han proporcionado una herramienta inmensamente útil para llevar el orden al mundo, para manipularlo con gran éxito. Podrían ser el avance tecnológico más importante que ha hecho la humanidad desde el descubrimiento del fuego.
Pero los números no siempre son iguales a los números. Los números conllevan un riesgo inherente: la abstracción es difícil, la investigación científica es difícil, y los números pueden ocultar la lucha detrás de su génesis, la incertidumbre del origen detrás del halo de verdad objetiva que irradian.
Las dificultades de la estadística
Las estadísticas, según Wikipedia, se refieren a la recopilación, organización, análisis, interpretación y presentación de datos.
Los números son una de las formas centrales de representar datos. Y una gran cantidad de números están flotando en los medios y el discurso público en estos días: tasas de mortalidad, número total de casos, factores R0, estimaciones de la efectividad de las contramedidas ... pero muy a menudo, hay preguntas sin respuesta al acecho detrás de ellos.
Antes de asumir qué datos le dicen sobre el estado objetivo de la realidad, algunas preguntas clave deben ser respondidas:
- ¿Cómo se recopilaron y organizaron los datos?
- ¿Cómo se presenta?
- ¿Cómo se debe interpretar?
La importancia de la recopilación de datos
Covid-19 es un desafío casi sin precedentes para la comunidad global (no hablemos del cambio climático ...) y tiene a la gente de todo el mundo conteniendo la respiración colectiva. Entonces, en este entorno, es natural buscar números que nos den una sensación de certeza sobre lo que realmente está sucediendo.
Pero las medidas tomadas contra el reinado de la propagación del virus no son un experimento científico, por lo que debemos tener mucho cuidado al tratarlo como tal. Hay varios puntos en los que las pruebas para detectar el virus se desvían significativamente de un experimento real, y en los que se acumulan los sesgos. Es muy importante tener en cuenta que, de hecho, ese es el caso en este preciso momento y que los números están ahí para entenderlos y hasta "disfrutarlos" (con sus respectivos bemoles).
- ¿Quién se hace la prueba? La mayoría de las pruebas realizadas a personas que viajan desde “áreas de alto riesgo” (como Irán, Italia y China) inducen un sesgo del grupo de selección, lo que conduce a una distribución sesgada que indica que la mayoría de las personas de áreas de alto riesgo han sido infectadas, aunque las personas desde otro lugar podría ser así, pero no se detectan.
- La comparación de números entre países es de valor limitado porque el número de pruebas varía mucho entre ellos. Mientras que Corea del Sur en su apogeo ha llevado a cabo alrededor de 10000 pruebas por día, y Alemania no está muy por detrás de ese número, otros países prueban mucho menos y en consecuencia detectan un número mucho menor de infecciones. Como es el caso de mi querido país: México.
- En algunos lugares durante algunos períodos, mientras que el número de pacientes con una infección confirmada por Covid-19 crece exponencialmente, también lo hace el número de pruebas que aumenta rápidamente. En principio, esto podría conducir a un gran crecimiento en las detecciones, incluso si el número de personas infectadas se mantuvo constante.
- Muchas personas casi no tienen síntomas o solo tienen síntomas muy leves, por lo que muchas personas pasarán desapercibidas, especialmente si las capacidades de prueba están sobrecargadas y, por lo tanto, se limitan a un pequeño grupo de personas de grupos seleccionados. La situación en Washington, donde se descubrió que el virus había estado presente varias semanas antes del primer caso confirmado, subraya bien este problema.
Entonces, antes de buscar interpretar los datos (tal y tal es la tasa de mortalidad, y tal es el número de pacientes infectados), debemos entender cómo se han recopilado los datos.
Hace un par de días, apareció un widget en la pantalla de mi teléfono con el número de casos confirmados que aparecen en letras rojas: ¡201463 personas habían sido infectadas con el coronavirus! Teniendo en cuenta que el número real de casos globales podría fácilmente desvanecerse por un factor de 10 a 50, no creo que pretender contar hasta el último individuo ayude a comprender la dificultad del proceso de recopilación de datos.
La tasa de letalidad también es frecuente, pero tiene una cantidad casi igual de incertidumbre: un factor de confusión inmenso incluye la demografía (hasta el 70 por ciento de los pacientes en Alemania son jóvenes en buena forma que regresan de sus viajes de esquí en Italia, lo que induce a otro sesgo de gran grupo de selección), mientras que en Italia una gran proporción de las personas afectadas es mayor, en parte porque las personas mayores en Italia están más fuertemente integradas en la vida social. Y luego, probablemente haya muchos más casos no detectados en Italia (considere que 70 alemanes que regresaron de vacaciones en Tirol del Sur dieron positivo en un momento en que todo el estado solo tenía 2 casos confirmados). Esto, y el hecho de que Alemania comenzó a probar más y más temprano, ha inducido una diferencia en la tasa de mortalidad por un factor de casi 50 entre dos en la superficie países relativamente similares.
Luego hay que considerar los retrasos entre la infección y las recuperaciones, la efectividad de los cuidados críticos, el papel del tabaquismo y la contaminación del aire (alta en Italia y China, y más prevalente entre los hombres), la demografía del país, la capacidad de los hospitales, la cuestión de qué pacientes se cuentan como muertes por Covid-19 (la primera víctima alemana fue un paciente de cáncer en etapa tardía de 78 años en cuidados paliativos, por lo que uno puede discutir hasta qué punto Covid debería explicar realmente su muerte) 19), etc.
Por lo tanto, es engañoso decir "la tasa de mortalidad es esto y aquello", y juzgar cuán peligroso es realmente este Covid-19 basándose solo en estos números. Si hablamos de una tasa de mortalidad, debemos ser conscientes de su origen y de lo que realmente dice.
Adoptando un marco bayesiano
En las estadísticas bayesianas, las probabilidades expresan nuestro grado de creencia en un evento. Una estimación bayesiana de una cantidad siempre incorpora lo que creemos saber sobre la cantidad, más nuestra estimación de la incertidumbre inherente de la cantidad.
Un conjunto de distribuciones de probabilidad gaussianas con diferentes covarianzas. Fuente: inductiveload/ dominio público
Los números expresan nuestro conocimiento de este mundo: pero como este conocimiento es necesariamente probabilístico, las cantidades en las estadísticas bayesianas están representadas por distribuciones de probabilidad (que pueden ser una curva de campana como en el gráfico anterior) en lugar de números individuales. El ancho de la distribución representa nuestro grado de certeza en nuestra estimación. El punto más alto del gráfico es nuestra mejor suposición (la media del Gaussiano), pero si la distribución es realmente amplia, nuestra mejor suposición no nos dice demasiado.
Así como este gran "vista a profundidad" a nuestras posibles medidas contra ella se explica en detalle, hay muchas incógnitas cuando se trata de Covid-19, y demasiadas incógnitas desconocidas para manejar cualquier número con demasiada confianza (también explica por qué tomar las medidas fuertes son nuestra mejor política en este momento, porque nos dan tiempo para tener una idea más clara).
Tomemos esta tabla que ha viajado por todo el mundo y es de un artículo publicado durante el fin de semana por Neil Ferguson et al. en el Imperial College de Londres.
Independientemente de cuán importante es su mensaje (conduce a cambios de política en los EE. UU. Y el Reino Unido), la forma en que el gráfico representa las curvas es engañosa. ¿Cuáles son los parámetros implícitos que se conectaron a la simulación y qué tan grandes son sus intervalos de confianza? Los efectos del clima / diferentes medidas de distanciamiento social / estructura social / tratamientos emergentes son inciertos, y ninguno de estos factores ha sido determinado por estudios empíricos, pero hasta ahora son conjeturas.
Como Jeremy Howard dice en su resumen práctico de la situación de Covid-19, aunque estas curvas se ven horribles, las barras de error a su alrededor podrían ser casi del tamaño de las curvas mismas.
Soportando la incertidumbre
En pocas palabras: puede ser difícil mantener la calma frente a la incertidumbre, pero hay algo de sabiduría en intentar mantenerla.
Desafortunadamente, para los políticos, reconocer la incertidumbre a menudo se interpreta como un signo de debilidad. Es por eso que creo que es responsabilidad de la comunidad científica enfatizar qué papel juega en la evaluación de lo que está sucediendo, lo que esto significa con respecto a las medidas que debemos tomar, y por qué esta incertidumbre es una de las mejores razones por las que necesitamos más tiempo para lentamente conquistar a través de una evaluación científica más rigurosa del virus, y luego decidir la mejor estrategia a largo plazo.
Nos gusta tener números a los que aferrarnos cuando la nube oscura de la pandemia se cierne sobre todas nuestras cabezas. Pero antes de que surjan hechos más claros, antes de que la comunidad global tenga una comprensión más firme de la situación, es mejor resistir la incertidumbre para luego perpetuar los hechos en aras de engañarnos a nosotros mismos en el confort, o en el otro extremo, obsesionarnos en un pánico que surge de pensar que sabemos mejor lo que está sucediendo de lo que realmente sabemos.
Manténganse en casa, manténganse sanos. Nos leemos pronto.
Customer Success @ Conekta
4 añosGran análisis, tocayo. Te ayuda a poner los pies en la tierra cada que lees algún tipo de información actual y no solo acerca del Covid.
Muy interesante perspectiva Alejandro, gracias por compartir. Un saludo en estos tiempos de incertidumbre!