Google y ZebiAI lanzan la iniciativa Chemome para identificar "sondas químicas" utilizando modelos de IA
En un estudio publicado esta semana en el Journal of Medicinal Chemistry los investigadores de Google, en colaboración con X-Chem Pharmaceuticals, demostraron un enfoque de IA para identificar moléculas biológicamente activas utilizando una combinación de y procesos de detección virtual. Esto llevó a la fundación de la iniciativa Chemome, que se está lanzando hoy, una colaboración entre el equipo de Google Accelerated Science y la startup ZebiAI, que se espera que permita el descubrimiento de muchas otras sondas químicas de bajo peso molecular para la investigación biológica.
Como parte de la iniciativa Chemome Según Google, ZebiAI trabajará con investigadores para identificar proteínas de interés e identificar datos de detección que el equipo de Accelerated Science utilizará para entrenar modelos de IA. Estos modelos harán predicciones sobre bibliotecas de moléculas pequeñas disponibles comercialmente (sondas químicas que no son medicinales pero inhiben o promueven selectivamente la función de ciertas proteínas) que se ponen a disposición de los investigadores para realizar pruebas de actividad a algunos programas a través del descubrimiento empujando hacia adelante
Es una tarea compleja comprender las redes biológicas que sostienen la vida y causan enfermedades. Un enfoque es usar moléculas pequeñas; En un sistema biológico (p. Ej., Células cancerosas que crecen en un plato), se pueden agregar en un momento determinado para observar cómo reacciona el sistema cuando una proteína aumenta o disminuye su actividad.
A pesar de la utilidad de las sondas químicas para este tipo En la investigación biomédica, solo el 4% de las proteínas humanas tienen disponible una sonda química conocida. Para aislar los nuevos, Google y X-Chem Pharmaceuticals recurrieron a la IA y al aprendizaje automático.
Como explican los coautores del estudio, las sondas químicas se identifican escaneando el espacio de las moléculas pequeñas en una proteína objetivo para distinguir las moléculas de "impacto" que se pueden probar más. La parte física del proceso utiliza bibliotecas de moléculas pequeñas (DEL) codificadas por ADN que contienen muchas moléculas pequeñas diferentes en un grupo, cada una unida a un fragmento de ADN que sirve como un "código de barras" para esa molécula. Muchos fragmentos químicos se crean junto con un mango químico común. Los resultados se resumen y dividen en reacciones separadas, en las que se añaden varios fragmentos diferentes con un identificador químico diferente.
Los fragmentos químicos de los dos pasos reaccionan y se fusionan en los mangos químicos comunes y están unidos para construir un código de barras continuo para cada molécula. Una vez que se ha creado una biblioteca, se puede usar para encontrar las moléculas pequeñas que se unen a la proteína de interés al mezclar el DEL con la proteína y eliminar las moléculas pequeñas que no están unidas. La secuencia de los códigos de barras de ADN restantes crea millones de lecturas individuales de fragmentos de ADN que luego pueden procesarse para estimar cuál de los mil millones de moléculas en el DEL original interactúa con la proteína.

Arriba: La proporción de moléculas de las moléculas probadas muestra diferentes niveles de actividad, comparando predicciones del clasificador y bosques aleatorios en tres objetivos proteicos.
Crédito de la foto: Google
Para predecir si una molécula pequeña seleccionada arbitrariamente se une a una proteína objetivo, los investigadores construyeron un modelo para el aprendizaje automático, en particular una red neuronal convolucional de gráficos, un tipo de modelo que se utiliza para entradas tipo gráfico como las pequeñas. Se desarrollaron las moléculas. El examen físico con el DEL proporciona ejemplos positivos y negativos de un clasificador, por lo que las moléculas pequeñas que quedan al final del proceso de examen son ejemplos positivos y todo lo demás ejemplos negativos.
El equipo examinó físicamente tres proteínas diferentes con bibliotecas DEL: sEH (una hidrolasa), ERα (un receptor nuclear) y c-KIT (una quinasa). Utilizando los modelos entrenados por DEL, se examinaron virtualmente grandes bibliotecas a medida de la plataforma de descubrimiento de fármacos de Mcule y una biblioteca molecular interna en X-Chem para identificar una serie de moléculas que se predice que tienen una afinidad por cada proteína objetivo exposición. Por último, compararon los resultados de su clasificador con un modelo forestal aleatorio, un método de detección virtual común que utiliza huellas digitales químicas estándar. Informan que el clasificador claramente superó al modelo RF al descubrir candidatos potentes.
El equipo probó casi 2,000 moléculas en los tres objetivos. Según sus propias declaraciones, este es el estudio prospectivo más grande sobre cribado virtual publicado hasta la fecha.
"Nosotros & # 39; Nos complace ser parte de la iniciativa Chemome, que es posible gracias a las técnicas efectivas de ML descritas aquí, y esperamos el descubrimiento de muchas nuevas sondas químicas. Anticipamos que el quimioma estimulará nuevos descubrimientos biológicos significativos y, en última instancia, acelerará nuevos descubrimientos terapéuticos para el mundo ", escribió Google en una publicación de blog. "Si bien se necesita hacer más validación para que las moléculas de éxito sean útiles como sondas químicas, especialmente para apuntar a la proteína de interés y funcionar correctamente en ensayos comunes, obtener grandes éxitos es un gran paso adelante". [19659016]]