bioinformatistas han utilizado un algoritmo diseñado para simular el lenguaje humano para predecir cómo podrían evolucionar los virus para defenderse del sistema inmunológico.
La copia es incorrecta
Los virus llevan una existencia cíclica bastante primitiva. Penetran en la célula, realizan una especie de pirateo de sus mecanismos reproductivos, creando una fotocopiadora para su propia especie. Las réplicas de virus se diseminan por todo el cuerpo con el mismo propósito: capturar y someter. Y así ad infinitum.
Muy a menudo, en la secuencia de esta copia y pegado, algo sale mal: los fallos durante la copia dan lugar a mutaciones. A veces, una mutación se refiere a la ausencia de una proteína o un aminoácido importante; un virus tan desafortunado se envía al basurero de la historia evolutiva. A veces, una mutación no tiene ningún efecto en nada: cuando los términos en la secuencia de proteínas se reorganizan, la suma no cambia.
Pero de vez en cuando, la mutación llega a manos del virus. Los cambios que se han producido no solo no impiden que el virus continúe capturando células sanas, sino que también lo ayudan a hacerlo con mayor eficacia. Las mutaciones pueden hacer que el virus sea irreconocible para la defensa inmunológica de una persona. Tal invasor logra evadir los anticuerpos desarrollados en personas que han estado enfermas o vacunadas, o "escaparse".
Los científicos siempre están atentos a posibles intentos de fuga de virus. Esto también es cierto para el SARS-CoV-2: aparecen nuevas cepas y los científicos están investigando cuán críticos son estos cambios para la vacuna existente (PS Hasta ahora, todo está en orden). Lo más difícil es para los investigadores del virus de la influenza y el VIH, que lo mejor de todo "eluden" las defensas inmunológicas de nuestro organismo.
Los virólogos están tratando de adelantarse a la curva, por lo que crean sus propios mutantes en el laboratorio y ven si pueden escapar de los anticuerpos tomados de ex pacientes y vacunados. Pero este trabajo es parecido a buscar una aguja en un pajar: las variaciones de mutaciones son tan diversas que no es posible comprobarlo todo. Estos estudios se realizan más bien para no perder un control relativo sobre la situación.
Ortografía viral
El invierno pasado, Brian Hee, bioinformatista del MIT y gran fanático de la poesía de John Donne , reflexionó sobre este problema y propuso una interesante analogía. ¿Qué pasa si vemos las secuencias virales de la misma manera que vemos el lenguaje escrito? Según el científico, cada secuencia viral tiene una especie de gramática: un conjunto de reglas que debe seguir para ser este virus en particular.
Si la mutación provoca un "error gramatical", el virus entra en un callejón sin salida evolutivo. Al igual que el lenguaje, la secuencia viral tiene una especie de semántica que el sistema inmunológico puede leer o no. Si lo lee, el sistema inmunológico puede comprender el virus y detenerlo mediante anticuerpos u otros medios de protección. Continuando con la analogía, el "escape" viral puede verse como un cambio que sigue las reglas de la gramática, pero cambia su semántica a una que no es leída por inmunidad.
La analogía no solo fue hermosa, sino que también le dio a Brian Hee la idea de su aplicación práctica. En los últimos años, la inteligencia artificial ha logrado grandes avances en el campo de la lingüística, modelando correctamente los principios de gramática y semántica del lenguaje humano. Las redes neuronales se entrenan en conjuntos de datos que constan de miles de millones de palabras y se ordenan por oraciones y párrafos, de los cuales el sistema deduce patrones. Como resultado del entrenamiento, los algoritmos de IA "comprenden" cómo construir oraciones correctamente y dónde colocar las comas. También se puede decir que "comprende" el significado de ciertas secuencias de palabras y frases e incluso tiene en cuenta el contexto; todo esto se basa en coeficientes correctamente seleccionados de las capas de la red neuronal.
La arquitectura de patrones para elegir una u otra palabra es a gran escala y se prescribe cada vez con más detalle. Por lo tanto, los algoritmos de procesamiento de lenguaje natural más avanzados, como GPT-3 de OpenAI, aprenden a crear textos con una gramática ideal manteniendo el estilo.
Tanto en literatura como en biología
La principal ventaja de los algoritmos de inteligencia artificial es su escalabilidad a diferentes áreas de la ciencia. Para un modelo de aprendizaje automático, una secuencia es una secuencia, sin importar dónde se encuentre en sonetos líricos o aminoácidos.
Según Jeremy Howard, investigador de inteligencia artificial de la Universidad de San Francisco y experto en algoritmos de procesamiento del lenguaje natural, el uso de algoritmos de IA en la investigación biológica puede ser beneficioso.
Teniendo una cantidad suficiente de datos, por ejemplo, de las secuencias genéticas de virus infecciosos conocidas por la ciencia, el modelo puede detectar patrones y patrones en su estructura.
"Será un modelo extremadamente complejo"., Dice Jeremy Howard. Brian Hee también lo sabía. Su asesora científica, la matemática y programadora Bonnie Berger, ha realizado anteriormente un trabajo similar con sus colegas en el laboratorio, utilizando IA para predecir patrones de plegamiento de proteínas.
Modelos de lenguaje para influenza, VIH y coronavirus
Esta primavera, el laboratorio de Berger dio vida a la idea de Brian Hee. Los resultados de la investigación se publican en la revista Science . Inicialmente, el equipo estaba interesado en la influenza y el VIH, que son conocidos por su magistral evasión de vacunas. Pero cuando comenzaron el estudio en marzo de 2020, el genoma del nuevo coronavirus estuvo disponible, por lo que decidieron agregarlo al estudio también.
Para los tres virus, los científicos se centraron en las secuencias de proteínas que utilizan para entrar en las células y replicarse, explica Brian Bryson, bioingeniero, profesor del MIT y coautor del estudio. Estas mismas secuencias son el objetivo principal de una respuesta inmune y la clave para crear una vacuna eficaz. Aquí, los anticuerpos se adhieren al virus, evitando que ingrese a la célula y lo condene a la destrucción (para el SARS-CoV-2, esta es la proteína S-spike). Para cada virus, el equipo del MIT entrenó un modelo de lenguaje utilizando datos de secuencia genética en lugar de los párrafos y oraciones habituales.
Después de un tiempo, los científicos comprobaron el resultado del entrenamiento del modelo. Según la hipótesis de los científicos, las secuencias que tienen una semántica similar deberían infectar a los mismos "hosts". Por lo tanto, el "lenguaje" genético de la gripe porcina debe ser semánticamente similar a otra gripe porcina y diferente de otro subtipo de gripe, por ejemplo, la gripe aviar. Se confirmó la hipótesis de los científicos. Además, encontraron que las cepas de influenza propagadas con el tiempo (por ejemplo, la influenza aviar de 1918 y 2009) fueron juzgadas por la IA como semánticamente similares.
Luego pasaron a la gramática. ¿Qué relación existe entre la puntuación gramatical de un virus y su viabilidad en la vida real? Los científicos han recopilado datos de estudios anteriores que evalúan la adaptabilidad de los virus mutados (qué tan bien atacaron las células y se replicaron) para los tres virus. Luego calificaron cuán gramaticalmente correctas eran estas secuencias según el modelo. Los investigadores asumieron que una puntuación alta para este parámetro significaba una alta adaptabilidad del virus.
Bryson y Hee también querían saber si la IA podía predecir la aparición de un virus de "escape". Luego compararon las predicciones de su modelo con los casos conocidos del "escape" real del virus. Se encontró que el modelo del virus de la influenza es el más predictivo. No es sorprendente que el conjunto de datos que utilizaron para entrenar este modelo fuera el más completo: incluía secuencias de gripe acumuladas durante varios años, incluidas mutaciones supervivientes.
En cuanto al SARS-CoV-2, los científicos han probado sus hipótesis en mutantes criados artificialmente. El virus existente se pasó repetidamente a través del suero con anticuerpos hasta que el virus mutó a una etapa tolerante a ellos (realmente no tenemos nada de qué preocuparnos todavía). La tasa de éxito fue menor aquí. El modelo destacó a la mayoría de los verdaderos fugitivos, pero a veces se equivocó.
Sin embargo, los resultados obtenidos son un buen punto de partida para futuras investigaciones de virólogos que quieran comprender cómo funciona el mecanismo de la mutación natural. "Esta es una excelente manera de reducir el universo de posibles virus mutantes ", comenta Benhour Lee, microbiólogo de la Escuela de Medicina Icahn en Mount Sinai.
El científico agregó que las predicciones son tan buenas como los datos sobre los que se entrena el modelo. También debe tenerse en cuenta que el modelo de IA pierde algunos matices, porque la propiedad de escape no siempre es una consecuencia de la mutación. El VIH es prueba de ello. A veces, la secuencia de este virus no cambia, y sus proteínas incluso son reconocidas por anticuerpos, pero están bien protegidas por un polisacárido llamado glicano.
Benhour Lee señaló que las predicciones de la IA ayudan principalmente a los investigadores a confirmar el conocimiento existente. Entonces, el modelo identificó correctamente dos partes de la proteína pico del SARS-CoV-2, que, como se descubrió anteriormente, son más susceptibles a las mutaciones, y una región de la secuencia del virus que es estable, lo que significa que es un buen objetivo para los anticuerpos.
El tiempo dirá a qué otros descubrimientos conducirán las previsiones del modelo de IA. Hasta ahora, los científicos han puesto esperanzas especiales en él en términos de identificación de las llamadas mutaciones combinativas, que incluyen muchos cambios superpuestos entre sí.
El siguiente paso, que tomará el personal de Bryson, será crear en el laboratorio algunos de los mutantes predichos del SARS-CoV-2 y monitorear su respuesta a los anticuerpos tomados de las personas enfermas y vacunadas. También probarán varias secuencias recolectadas de intentos de secuenciar muestras de virus de pacientes con Covid-19, que el modelo cree que son más propensos a escapar, dijo Bryson.
Los científicos también quieren probar si su analogía se aplica a otras situaciones. ¿Podría un modelo similar predecir si el sistema inmunológico se volverá intolerante a un tratamiento particular del cáncer, o si las células cancerosas podrían mutar y dejar de responder al tratamiento? Con suficientes datos en la mano, el equipo de laboratorio de Bryson también quiere probar eso.