Conoce a las personas que advierten al mundo de las nuevas variantes de Covid


En marzo de 2020, cuando la OMS declaró una pandemia, la base de datos pública de secuencias GISAID contenía 524 secuencias de Covid. Los científicos subieron 6.000 más durante el mes siguiente. A finales de mayo había más de 35.000. (En contraste, los científicos globales agregaron 40,000 secuencias de gripe a GISAID a lo largo de 2019).

«Sin un nombre, olvídalo, no podemos entender lo que dicen otras personas», dijo Anderson Brito, becario postdoctoral en epidemiología genómica en la Escuela de Salud Pública de Yale, que está contribuyendo al esfuerzo de Pango.

A medida que aumentaba el número de secuencias de Covid, los investigadores que intentaban estudiarlas se vieron obligados a crear infraestructuras y estándares completamente nuevos en un abrir y cerrar de ojos. Un sistema de nombres universal fue uno de los elementos clave de este esfuerzo: sin él, los científicos tendrían dificultades para hablar entre ellos sobre cómo viaja y cambia la progenie del virus, ya sea para informar una pregunta o, más críticamente, para dar la alarma.

De donde vino Pango

En abril de 2020, un puñado de virólogos destacados en el Reino Unido y Australia propuso un sistema de letras y números para nombrar linajes o nuevas ramas de la familia Covid. Tenía lógica y jerarquía, aunque los nombres que generaba, como B.1.1.7, eran un poco complicados.

Una de las autoras del artículo fue Áine O’Toole, estudiante de doctorado en la Universidad de Edimburgo. Pronto ella fue la persona principal que hizo esta clasificación y, finalmente, peinó cientos de miles de secuencias.

Ella dice: “Desde el principio, solo alguien estaba disponible para curar las secuencias. Ese fue mi trabajo durante un tiempo. Creo que nunca entendí lo grandes que seríamos «.

Rápidamente se dedicó a desarrollar software para asignar nuevos genomas a los linajes correctos. No mucho después de eso, otra investigadora, la postdoctoral Emily Scher, construyó un algoritmo de aprendizaje automático para hacer las cosas aún más rápidas.

«Sin un nombre, olvídalo, no podemos entender lo que dicen otras personas».

Anderson Brito, Escuela de Salud Pública de Yale

Llamaron al software Pangolin, una referencia irónica a un debate sobre el origen animal de Covid. (Todo el sistema ahora se conoce simplemente como Pango).

El sistema de nombres, junto con el software para implementarlo, se convirtió rápidamente en un elemento esencial a nivel mundial. Aunque la OMS ha comenzado recientemente a utilizar letras griegas para variantes de gran preocupación como Delta, estos apodos están destinados al público y los medios de comunicación. Delta en realidad se refiere a una familia creciente de variantes a las que los científicos usan sus nombres Pango más precisos para referirse a: B.1.617.2, AY.1, AY.2 y AY.3.

«Cuando Alpha apareció en el Reino Unido, Pango nos facilitó la búsqueda de estas mutaciones en nuestros genomas para ver si teníamos ese linaje en nuestro país», dice Jolly. «Desde entonces, Pango ha servido como base para reportar y monitorear variantes en India».

Debido a que Pango ofrece un enfoque racional y ordenado al caos de otro modo, puede cambiar para siempre la forma en que los científicos llaman a las cepas de virus: expertos de todo el mundo pueden colaborar utilizando un vocabulario común. Brito dice: «Lo más probable es que este sea un formato que usaremos para rastrear todos los demás virus nuevos».

Muchas de las herramientas básicas para rastrear los genomas de Covid han sido desarrolladas y mantenidas durante el último año y medio por científicos jóvenes como O’Toole y Scher. A medida que explotó la necesidad de colaboración global de Covid, los científicos se apresuraron a apoyarlos con una infraestructura ad hoc como Pango. Gran parte de este trabajo recayó en jóvenes investigadores expertos en tecnología de entre 20 y 30 años. Utilizaron redes informales y herramientas de código abierto, lo que significaba que eran de uso gratuito y cualquiera podía hacer ajustes y mejoras de forma voluntaria.

“Las personas que están al día con la última tecnología suelen ser estudiantes de doctorado y posdoctorados”, dice Angie Hinrichs, bioinformática de UC Santa Cruz, quien se unió al proyecto a principios de este año. O’Toole y Scher, por ejemplo, trabajan en el laboratorio de Andrew Rambaut, un epidemiólogo del genoma que puso en línea las primeras secuencias públicas de Covid después de recibirlas de científicos chinos. “Estaban perfectamente posicionados para proporcionar estas herramientas absolutamente críticas”, dice Hinrichs.

Construye rapido

No fue fácil. Durante la mayor parte de 2020, O’Toole asumió la mayor parte de la responsabilidad de identificar y nombrar nuevos linajes él mismo. La universidad cerró, pero ella y otra estudiante de doctorado de Rambaut, Verity Hill, recibieron permiso para ingresar a la oficina. Su caminata a la escuela, a 40 minutos a pie del apartamento donde vivía sola, le dio una sensación de normalidad.

Cada pocas semanas, O’Toole descargaba todo el repositorio de Covid de la base de datos GISAID, que había crecido exponencialmente cada vez. Luego buscó grupos de genomas con mutaciones que parecieran similares, o cosas que parecieran extrañas y que pudieran estar mal etiquetadas.

Si estaba particularmente estancada, Hill, Rambaut y otros miembros del laboratorio interferían para discutir las designaciones. Pero el trabajo de los gruñidos recayó sobre ella.

“Imagínese pasar por 20.000 secuencias de 100 lugares diferentes de todo el mundo. He visto secuencias de lugares de los que nunca había oído hablar «.

ine O’Toole, Universidad de Edimburgo

Decidir cuándo los descendientes del virus merecen un nuevo apellido puede ser tanto un arte como una ciencia. Fue un proceso laborioso examinar una cantidad inaudita de genomas y seguir preguntando: ¿Es esta una nueva variante de Covid o no?

«Eso fue bastante tedioso», dice. “Pero siempre fue muy humillante. Imagínese pasar por 20.000 secuencias de 100 lugares diferentes de todo el mundo. He visto secuencias de lugares de los que nunca había oído hablar «.

Con el tiempo, O’Toole luchó por mantenerse al día con la cantidad de nuevos genomas que debían ser ordenados y nombrados.

En junio de 2020, se almacenaron más de 57.000 secuencias en la base de datos de GISAID y O’Toole las clasificó en 39 variantes. En noviembre de 2020, un mes después de que debía entregar su tesis, O’Toole realizó su último análisis en solitario de los datos. Le tomó 10 días repasar todas las secuencias que contaban 200,000 para entonces. (Aunque Covid eclipsó su investigación sobre otros virus, agrega un capítulo sobre pango en su tesis).

Afortunadamente, el software Pango está diseñado para ser colaborativo y otros han mejorado. Una comunidad en línea, a la que recurrió Jolly cuando notó que la variante se extendía por la India, creció y creció. Este año, el trabajo de O’Toole fue mucho más práctico. Los nuevos linajes ahora se determinan principalmente cuando los epidemiólogos de todo el mundo se ponen en contacto con O’Toole y el resto del equipo a través de Twitter, correo electrónico o GitHub, su método preferido.

«Es más reaccionario ahora», dice O’Toole. «Si un grupo de investigadores, en cualquier parte del mundo, está trabajando con datos y cree que han identificado un nuevo linaje, pueden realizar una investigación».

Continúa la avalancha de datos. La primavera pasada, el equipo organizó un “pangothon”, una especie de hackatón, en el que se clasificaron 800.000 secuencias en unas 1.200 líneas.

«Hemos tenido tres días completos», dice O’Toole. «Tomó dos semanas».

Desde entonces, el equipo de Pango ha reclutado a algunos voluntarios más, como el investigador Hindriks de UCSC y el investigador de Yale Brito, quienes se involucraron inicialmente al agregar sus dos centavos en Twitter y la página de GitHub. Un becario postdoctoral de la Universidad de Cambridge, Chris Ruis, ha centrado su atención en ayudar a O’Toole a limpiar la acumulación de solicitudes de GitHub.

O’Toole le pidió recientemente que se uniera formalmente a la organización como parte del recién creado Comité de Designación de Linaje de la Red Pango, que analiza los nombres de las variantes y toma decisiones. Otro comité, que también incluye al director del laboratorio Rambaut, toma decisiones generales.

«Tenemos un sitio web y un correo electrónico que no es solo mi correo electrónico», dice O’Toole. «Se ha vuelto mucho más formal y creo que eso realmente ayudará a ampliarlo».

El futuro

Algunas grietas alrededor de los bordes han comenzado a mostrarse a medida que aumentaron los datos. Hasta la fecha, hay casi 2,5 millones de secuencias de Covid en GISAID, que el equipo de Pango ha dividido en 1.300 ramas. Cada rama corresponde a una variante. Según la OMS, deben observarse ocho de estos.

Dado que hay tanto que procesar, el software comienza a fallar. Las cosas están mal etiquetadas. Muchas cepas tienen un aspecto similar porque el virus sigue desarrollando las mutaciones más beneficiosas.

Como medida provisional, el equipo desarrolló un nuevo software que utiliza un método de clasificación diferente y puede capturar cosas que Pango podría pasar por alto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *