Modelado Covid-19, Youyang Gu, aprendizaje automático, ciencia de datos


«Quedó claro que no íbamos a lograr la inmunidad colectiva en 2021, al menos definitivamente no en todo el país», dice. “Y creo que es importante, especialmente cuando intentas generar confianza, que tomemos medidas razonables para volver a la normalidad. No deberíamos vincular esto a un objetivo poco realista como lograr la inmunidad colectiva. Sigo siendo cautelosamente optimista de que mi pronóstico original de una vuelta a la normalidad en el verano será válido en febrero. «

A principios de marzo, empacó por completo la tienda; supuso que había hecho su contribución. “Quería renunciar y dejar que los demás fabricantes de modelos y expertos hicieran su trabajo”, dice. «No quiero estropear la habitación».

Todavía está atento a los datos e investiga y analiza: las variantes, el lanzamiento de la vacuna y la cuarta ola. «Si veo algo que es particularmente preocupante o preocupante de lo que no creo que la gente esté hablando, definitivamente lo haré público», dice. Sin embargo, actualmente se concentra en otros proyectos como “YOLO Stocks”, una plataforma para analizar tickers bursátiles. Su principal labor en casos de pandemia es como miembro del grupo asesor técnico de la Organización Mundial de la Salud sobre la Evaluación de la Mortalidad Post-Covid-19, donde comparte la experiencia de su forastero.

«Definitivamente aprendí mucho el año pasado», dice Gu. «Fue muy revelador».

Lección 1: Enfóquese en lo básico

«Desde la perspectiva de la ciencia de datos, mis modelos han demostrado la importancia de la simplicidad, que a menudo se subestima», dice Gu. Su modelo para predecir la muerte era simple no solo en su diseño, el componente SEIR con una capa de aprendizaje automático, sino también en su enfoque de abajo hacia arriba para los datos de entrada. De abajo hacia arriba significa «comenzar desde el mínimo y agregar complejidad si es necesario», dice. “Mi modelo solo usa muertes pasadas para predecir muertes futuras. No se utiliza ninguna otra fuente de datos real. «

Gu señaló que otros modelos se basaron en datos eclécticos sobre casos, estadías hospitalarias, pruebas, movilidad, uso de mascarillas, comorbilidades, distribución por edad, demografía, estacionalidad de la neumonía, tasa anual de mortalidad por neumonía, densidad de población, contaminación del aire, altitud, datos sobre tabaquismo y contactos autoinformados, tráfico de pasajeros, punto de atención, termómetros inteligentes, publicaciones en Facebook, búsqueda en Google y más.

«Existe la creencia de que si agrega más datos al modelo o lo hace más complejo, el modelo funcionará mejor», dice. «Pero en situaciones del mundo real, como la pandemia, donde los datos son tan ruidosos, desea mantener las cosas lo más simples posible».

“Decidí desde el principio que las muertes pasadas eran el mejor predictor de muertes futuras. Es muy simple: entrada, salida. Agregar más fuentes de datos solo hace que sea más difícil extraer la señal del ruido. «

Lección 2: Minimizar los supuestos

Gu cree que tuvo una ventaja al abordar el problema con una pizarra en blanco. «Mi objetivo era simplemente seguir los datos en covid para aprender más sobre covid», dice. «Esa es una de las principales ventajas de la perspectiva de un extraño».

Como Gu no era epidemiólogo, también necesitaba estar seguro de que no estaba haciendo suposiciones falsas o inexactas. “Mi trabajo es diseñar el modelo para que pueda aprender las suposiciones por mí”, dice.

«A veces, cuando llegan nuevos datos que contradicen nuestras creencias, tendemos a pasarlos por alto o ignorarlos, y eso puede tener repercusiones más adelante», señala. «Definitivamente he sido víctima de eso, y sé que también hay muchas otras personas».

«Por lo tanto, es muy importante estar al tanto y reconocer los posibles sesgos que tenemos y poder ajustar nuestras prioridades, ajustar nuestras creencias cuando los nuevos datos las refutan, especialmente en un entorno acelerado como hemos visto a Covid».

Lección 3: Pon a prueba la hipótesis

«Lo que he visto en los últimos meses es que cualquiera puede hacer afirmaciones o alterar los datos para que se ajusten a la narrativa de lo que quieren creer», dice Gu. Esto muestra la importancia de crear hipótesis fácilmente comprobables.

“Para mí esa es toda la base de mis pronósticos y previsiones. Tengo una serie de suposiciones, y si esas suposiciones son correctas, entonces predecimos que esto sucederá en el futuro ”, dice. “Y, por supuesto, si las suposiciones son incorrectas, tenemos que admitir que las suposiciones que estamos haciendo no son ciertas y ajustar en consecuencia. Si no logra formular hipótesis comprobables, no podrá demostrar si realmente tiene razón o no. «

Lección 4: Aprender de los errores

«No todas las proyecciones que hice fueron correctas», dice Gu. En mayo de 2020, pronosticó 180.000 muertes en los Estados Unidos para agosto. «Eso es mucho más alto de lo que hemos visto», recuerda. Su hipótesis comprobable resultó ser falsa, «y eso me obligó a ajustar mis suposiciones».

En este punto, Gu utilizó una tasa de mortalidad por infección fija de aproximadamente el 1% como constante en el simulador SEIR. Cuando redujo la tasa de muerte por infección a alrededor del 0,4% (y luego a alrededor del 0,7%) ese verano, sus predicciones volvieron a un rango más realista.

Lección 5: Involucrar a los críticos

«No todo el mundo estará de acuerdo con mis ideas, y eso lo agradezco», dice Gu, quien usó Twitter para publicar sus proyecciones y análisis. “Intento reaccionar lo más posible ante la gente, defender mi posición y debatir con la gente. Te obliga a pensar cuáles son tus suposiciones y por qué crees que son correctas. «

«Se remonta al sesgo confirmatorio», dice. “Si no puedo defender adecuadamente mi posición, ¿es realmente el reclamo correcto y debo hacer estos reclamos? Me ayuda a entender cómo pensar en estos temas al relacionarme con otras personas. Cuando otras personas presentan evidencia que contradice mis posiciones, necesito poder ver si estoy equivocado en algunas de mis suposiciones. Y eso me ayudó enormemente a mejorar mi modelo. «

Lección 6: Ejercite el escepticismo saludable

«Ahora soy mucho más escéptico acerca de la ciencia, y no es algo malo», dice Gu. “Creo que es importante cuestionar siempre los resultados, pero de forma saludable. Es una línea muy fina. Porque mucha gente simplemente rechaza la ciencia, y ese tampoco es el camino a seguir. «

«Pero creo que también es importante no confiar ciegamente en la ciencia», continúa. «Los científicos no son perfectos». Si algo no parece correcto, es apropiado hacer preguntas y buscar explicaciones. “Es importante tener diferentes perspectivas. Si algo hemos aprendido en el último año es que nadie tiene toda la razón todo el tiempo. «

«No puedo hablar por todos los científicos, pero mi trabajo es deshacerme del ruido y descubrir la verdad», dice. “No estoy diciendo que fui perfecto el año pasado. Me he equivocado muchas veces. Pero creo que todos podemos aprender a acercarnos a la ciencia como un método para encontrar la verdad, no la verdad en sí «.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *