En qué se diferencia la bioinformática de la biología computacional: una breve introducción



Hace un par de días, Alsu Missarova, licenciada por la Facultad de Mecánica y Matemáticas de la Universidad Estatal de Moscú, doctora en biología de sistemas (genómica funcional en levaduras) en la Universitat Ponepu Fabra de Barcelona, ​​habló en nuestro YouTube. Ahora Alsou es un postdoctorado en el laboratorio de JOhn Marioni (EBI, Cambridge, Reino Unido), se dedica a la secuenciación de ARN de una sola célula y la integración con la transcriptómica espacial.



Alsou dio una breve introducción a lo que es la bioinformática y en qué se diferencia de la biología computacional. Compartimos con ustedes la grabación y transcripción de la transmisión: esperamos que esta sea una introducción a toda una serie de ponentes que se dedican a la bioinformática.






Mi nombre es Alsu Missarova. Me pidieron que hablara sobre bioinformática, en particular, qué problemas resuelvo, qué tipo de datos proceso, qué tipo de problemas hay en biología computacional para los técnicos, para las personas con un sesgo en la informática, el análisis de datos, etc.



Yo mismo no soy un bioinformatista, soy un biólogo computacional. Estos dos conceptos están altamente correlacionados y la línea entre ellos es borrosa, pero es importante comprender la diferencia. Para ambos, el objetivo es responder algunas preguntas biológicas o mejorar nuestra comprensión de cómo funcionan los procesos biológicos. Su enfoque es similar: procesamiento y análisis de datos de una gran cantidad de datos que no se pueden procesar con los ojos y las manos. La diferencia está en la prioridad. El biólogo computacional más bien tendrá una pregunta biológica relativamente específica y necesitará comprender qué tipo de datos recopilar. Debe tener acceso a estos datos, debe poder procesar, analizar, interpretar y, de hecho, responder la pregunta correctamente. Cuando el objetivo es la informática, es más bien la creación de algoritmos, cuerpos, métodos para trabajar con datos biológicos.Lo más probable es que la tarea se coloque en primer lugar y los datos estén en un formato más industrial. Es decir, tendrán un determinado formato de datos que procesarán, que será necesario producir para una gran cantidad de individuos u organismos, etc.



Puede tomarlo así: un biólogo computacional es más probablemente un biólogo que puede abrir algunas bibliotecas y usar algunas herramientas, y un bioinformatista es más probable que sea un científico informático al que no le importa la biología, que realmente no la entiende, y simplemente trabaja con números, con cadenas, con datos. De hecho, no lo es, por supuesto. Esto es cierto para cualquier campo, pero cuando trabaja con datos, en cualquier campo, es absolutamente necesario comprender qué tipo de datos tiene y dónde obtiene el ruido en los datos. Y habrá mucho ruido en los datos biológicos que recibirá. A grandes rasgos, se puede descomponer en ruido técnico y biológico. El ruido técnico proviene del hecho de que las máquinas que crean los datos son imperfectas y defectuosas. Y el ruido biológico se produce porque hay mucha variación en cualquier sistema.Incluso entre dos células del mismo organismo, incluso si son células cutáneas adyacentes, habrá una diferencia biológica. Es necesario distinguir el ruido técnico del biológico, eliminar el técnico y dejar el biológico, y esto requiere una comprensión de la biología.



Pasemos a qué tipo de datos tenemos en biología. En primer lugar, cuando la gente escucha bioinformática, piensa en la secuenciación del ADN (que, en principio, está justificada). Creo que todo el mundo sabe lo que es: es, relativamente hablando, la capacidad de determinar qué tipo de secuencia de ADN tiene un organismo. Es decir, el ADN es una molécula muy larga; para los humanos es de aproximadamente 3,1 mil millones de "letras". 4 letras - ACDH - estos son nucleótidos. En consecuencia, la gente ha aprendido a leer el ADN de un ser vivo. Esta muy padre. Ahora puede, por ejemplo, determinar las secuencias de dos personas, compararlas y contrastarlas, cuál es la diferencia entre estas secuencias y cuál es la diferencia entre estas personas, y tratar de encontrar una relación causal. Así es como el ADN afecta tu fenotipo, cuál es la diferencia entre dos personas. Asimismo, digamos en biología computacional:puede tomar dos organismos de especies vecinas, secuenciarlos de la misma manera: determinar la secuencia de ADN y, en consecuencia, tratar de comprender cuál es la diferencia entre los dos organismos y qué ADN realmente lo influye.



Ahora puede ir a otra dimensión y hacer la siguiente pregunta: si toma dos células de un organismo, de una persona, ¿cuál es la diferencia entre ellas? Es decir, en términos relativos, las células epiteliales de la piel se diferenciarán de las neuronas. Aquí el ADN ya no es muy adecuado. Existe tal axioma, que en general es erróneo: que la secuencia de ADN de las células de un organismo es siempre la misma. Es erróneo porque un organismo vivo es una estructura dinámica; crece, comparte, muere. En este proceso, se acumulan mutaciones. El proceso de replicación del ADN no es perfecto ya veces se rompe; El ADN se repite, pero se repite imperfectamente. Las mutaciones pueden ser neutrales, que no conducen a nada, o dañinas, que causan disfunción celular. Por supuesto, si hacemos abstracción, la secuencia de ADN sigue siendo más o menos idéntica entre las dos células,pero funcionan de manera diferente. En consecuencia, una gran cantidad de preguntas biológicas tienen como objetivo comprender cuál es la diferencia entre diferentes células y qué las afecta. La comunidad tiene solicitudes de este tipo de datos. Debe poder resaltar, calcular, leer esta diferencia.



Aquí es donde llegamos a lo que hago. El formato de datos principal (o uno de los principales) que la gente usa aquí es la secuenciación de ARN. Ahora hablaré brevemente sobre qué es el ARN y sobre la evolución de la secuenciación del ARN en general.



Esta es una versión muy abreviada, de hecho, todo es más complicado. Los dos pilares que sustentan la biosíntesis celular son la transcripción y la traducción. ADN es una palabra muy larga que codifica cierta información. Esta información de la celda se puede procesar, leer y procesar en elementos funcionales.



Las proteínas son un excelente ejemplo de esto. Estas son máquinas tan pequeñas en una celda que realizan ciertas funciones y dan vida y funcionalidad a esta celda para que funcione como debería. Las proteínas están codificadas por genes. Un gen es una subpalabra en una secuencia de ADN. La transcripción ocurre cuando una gran máquina molecular se asienta sobre una doble hélice larga de una molécula de ADN: la polimerasa, que viaja a través de los genes, crea copias y las arroja al citoplasma de la célula. Estas copias de ADN (no realmente copias) se hacen en cierta cantidad. En consecuencia, dos células diferentes tienen diferentes cantidades de ARN de diferentes genes. Para una célula epitelial, se necesita más gen A, para las neuronas, más gen B, y se produce un número diferente de ellos. Luego se procesa el ARN, y luego, cuando está en un formato más final, otra máquina "se sienta" en el hilo. Respectivamente,cuando la gente habla de secuenciación de ARN, se refiere, en términos relativos, a calcular cuánto de qué ARN se produce a partir de qué genes en las células. Esta es la composición de ARN o secuenciación de ARN.



De hecho, es genial que la gente haya aprendido a hacer esto. Durante mucho tiempo, la principal limitación de esta tecnología fue que se necesitaron muchas células para obtener material de ARN. Es decir, era necesario juntar decenas de miles de células (naturalmente, ya no viables), eliminar el ARN y secuenciar.



El problema es que las células a menudo difieren entre sí. Habrá mucha variación biológica, porque para muchos procesos, por ejemplo, desarrollo, inmunología u oncología, habrá una gran interacción entre células de diferentes funcionalidades. Y cuando, digamos, se hace una biopsia y se extraen muchas células, se obtiene una mezcla. Y si toma solo la expectativa de estos ARN para todas las células, entonces pierde la varianza. Y no los comprende y no puede estudiarlos.



Y, en consecuencia, hubo una solicitud de la comunidad para hacer esto a nivel de celda única. Y aprendieron a hacer esto hace 10 años. Esto es muy bueno, para muchas áreas es muy importante. Puede mirar muy profundamente en el sistema, ver qué tipo de células hay a nivel microscópico. Pero también existen limitaciones. Uno de ellos es que está perdiendo su información espacial. En términos relativos, para realizar la secuenciación de ARN, debe tomar un trozo de tejido, cortarlo en células y realizar la secuencia de ARN de una sola célula.



Pero, de manera amistosa, muchas de las funcionalidades están en cómo las células interactúan entre sí en el espacio. Y para esto se les ocurrió la tecnología especial de transcriptómica: la capacidad de medir el ARN sin perder información espacial.



Uno de los principales trucos para esto es usar un microscopio: toma su tejido, lo arregla, es decir, toma un conjunto de células y lo fija en el microscopio. Y luego envías pequeñas sondas a este tejido, que contienen dos elementos: uno de ellos es muy específico para tu ARN, y solo se unirá a aquellos genes que son importantes. Y el segundo será una marca fluorescente brillante. Puede hacer brillar un microscopio a una cierta frecuencia de la onda en el tejido, y puede determinar cuántas luciérnagas en las células se iluminarán. En consecuencia, habrá tantas moléculas de ARN. En realidad, las tareas que estoy haciendo están en la unión de la transcriptómica especial y la secuenciación de ARN unicelular. Hablando relativamente, aquí estoy haciendo desarrollo, mirando a los ratoncitos; Tengo datos sobre transcriptómica unicelular y especial,y estoy tratando de hacer coincidir las células que veo en el contexto especial con las que veo en la secuencia de ARN de una sola célula.



Pasaré a los problemas que, en principio, pueden ser de interés para los técnicos y los ingenieros de ML. He identificado tres tipos de tareas que están actualmente en demanda, y todas están en el campo de la medicina; la medicina ahora recibe muchos recursos, mucho dinero, muchos datos.



El primer tipo de tarea es el descubrimiento de fármacos. Hay una enfermedad, es necesario curarla, para ello es necesario encontrar un medicamento. Cómo resumir esta tarea con más detalle; Necesita encontrar la composición de una sustancia química que pueda colocarse en una pastilla o cápsula, enviarse al cuerpo y luego las moléculas se unirán específicamente a esas proteínas, esos objetivos que, si se modifica su estado, cambiarán el estado de la enfermedad, relativamente hablando, curar.



Aquí hay varias etapas. Uno de ellos es la identificación / validación de objetivos. De alguna manera se debe poder predecir qué moléculas deben unirse para que cambie el estado de la enfermedad. Para ello, se recopila una gran cantidad de datos: se toman personas enfermas, se toman personas sanas, se miden muchos parámetros diferentes de ellos. Estás secuenciando ADN, ARN, transcriptómica, proteómica, el estado de las proteínas.



A continuación, intenta determinar cuáles de los parámetros de las células de las personas enfermas se relacionan específicamente con las personas enfermas y cuáles con las personas sanas. Es decir, está tratando de determinar qué moléculas están potencialmente relacionadas con la enfermedad. Esto es por un lado. Por otro lado, todavía necesita encontrar moléculas que se puedan drogar, es decir, que tengan el potencial de unirse a sustancias químicas activas que envía al cuerpo para sanar. Aquí necesita medir muchos parámetros: unión, plegamiento de proteínas, etc.



Para ello, ahora se utiliza el aprendizaje automático activo. Es decir, observa diferentes compuestos proteicos e intenta predecir, basándose en objetivos conocidos, si un objetivo en particular será bueno. Además, también hay que sintetizar el fármaco correcto. Es decir, debe encontrar una composición química de la molécula que pueda unirse específicamente a la proteína con la que necesita entrar en contacto y que, en principio, pueda ingresar al cuerpo, disolverse en agua, etc. Hay muchas funciones que deben optimizarse. Hacerlo con las manos es difícil, pero se puede predecir en función del hecho de que ya tiene medicamentos conocidos, y compara el nuevo medicamento potencial con los conocidos y predice qué tan exitoso podría ser. Todo esto está a nivel de predicción; entonces tendrá que ser validado, realmente mostrado,que funciona. Pero las predicciones de drogas son la clave para reducir el dinero y el tiempo dedicado a la investigación. Esto es muy relevante.



El segundo tipo de problema asociado con el primero es, relativamente hablando, encontrar los biomarcadores de la enfermedad. El cáncer es un buen ejemplo. Parte de la razón por la que es tan difícil de tratar es porque es muy diferente y hay tantas diferencias entre dos personas. En general, lo que es cáncer es cuando se ha acumulado una cierta cantidad de mutaciones, lo que ha provocado la degradación celular. Y la célula, en lugar de realizar su función, simplemente comienza a dividirse muy rápidamente y reemplaza a las células sanas. Esto mata gradualmente al cuerpo. Pero hay muchos mecanismos por los cuales la célula se descompone. El cáncer de una persona no es el cáncer de otra persona, y un medicamento que funciona para una puede no funcionar para otra. En consecuencia, es muy importante poder determinar rápidamente qué genes y otros parámetros deben examinarse para comprender que una persona está enferma con una enfermedad específica. Es decir, necesitamos encontrar biomarcadores.Para ello se utilizan bases de datos. Ahora se recopilan activamente datos de varios formatos de un gran número de personas, sanas y enfermas. Necesita cristalizar la salida; una persona puede curarse o no, y es necesario comprender con qué tipo de personas se enferman. Si encuentra rápidamente lo que está roto, puede curarlo.



La tercera área que se está desarrollando actualmente es divertida, pero se trata de la minería de texto. Actualmente hay mucha literatura en biología, una gran cantidad de laboratorios se dedican a una gran cantidad de cosas. De hecho, las personas a menudo encuentran cosas, por ejemplo, interacción proteína-proteína o interacción fármaco-proteína. Sucede de forma independiente, en diferentes partes del mundo, y no saben cómo puede interactuar. La minería de texto analiza diferentes artículos que se publican y crea una base de datos. Es decir, si en un lugar se determinó que una proteína interactúa con la segunda proteína, y en otro, que la segunda proteína puede ser afectada por un determinado fármaco, resulta que este fármaco también puede afectar a la proteína original. Se crea un gráfico de interacción y puede predecir interacciones nuevas, no encontradas anteriormente.



Otro tipo de problema que quería mencionar y que, en mi opinión, es bastante interesante, es el análisis de imágenes. En general, la imagen es un formato de datos poderoso, que se usa con mucha frecuencia y mucho en biología, porque se puede comprender mucho al respecto por la apariencia de una celda.



Si se acumula una gran cantidad de imágenes microscópicas, debe analizarlas rápidamente y poder hacer predicciones. Un ejemplo común es, nuevamente, el cáncer; se toma una biopsia y se ve cómo están conectadas las células sanas y enfermas. Los pintas: el núcleo de un color, el citoplasma de otro. Entonces intentas predecir: ¿este tejido tiene un tumor o no?



Para investigaciones más fundamentales, procesar una imagen de un microscopio ya es más difícil; la gente quiere observar ciertos orgánulos, moléculas o proteínas y, en consecuencia, rastrear cómo las células interactuarán entre sí, cómo se desarrollarán, etc. La gente ha aprendido a colorear varios elementos de la célula, y esto se hace con la ayuda de proteínas fluorescentes. Tomas lo que necesitas y le agregas esa proteína etiquetada. Y si le iluminas con una luz, se iluminará y comprenderás que estos orgánulos, o proteínas o ARN están en un lugar determinado. Y luego rastreas cómo interactúan las células. Esto también requiere análisis de imágenes, porque hay muchas imágenes y, por regla general, no tienen muy buena resolución. Y necesita obtener una buena resolución de imágenes turbias. De hecho, la comunidad no se detiene;la gente escribe redes neuronales, cambia diferentes parámetros, etc. Pero los datos evolucionan y los métodos deben evolucionar con ellos. Es decir, estas cosas deben ir de la mano.



La tendencia actual, en la que piensan muchos laboratorios, es "cómo conquistar el tiempo". Es decir, muy a menudo en la secuenciación y en el análisis de imágenes, etc., existe tal problema: hay una instantánea del sistema, pero es estático. Toma una medida en un momento específico. Y no comprende cómo se desarrollarán más las células. Uno de los enfoques para resolver este problema son las imágenes de la vida. Cuando no matas células, sino que las colocas en el entorno en el que se desarrollan, interactúan, etc., y con un microscopio cada 10 segundos, toma una instantánea cada minuto, y luego puedes restaurar las trayectorias de movimiento, interacciones, etc. Pero hay una limitación: por ejemplo, los sellos fluorescentes no son muy buenos para obtener imágenes de la vida, porque cuando iluminas un sello, emite radiación y esto es tóxico para la célula. La célula comienza a morir.Se debe encontrar un compromiso: por un lado, desea mantener la jaula lo más saludable posible, pero, por otro lado, desea tomar más instantáneas, pero cuanto más las tome, más rápido muere.



Y aquí hay un enfoque de este tipo: las personas ahora están tratando de determinar el destino de la célula con la ayuda de un número mínimo de marcas fluorescentes, pero de hecho, solo con la ayuda del microcontorno del núcleo y la célula. Es como el reconocimiento facial: antes podías hacerlo con ojos, boca, nariz y otros rasgos visibles, pero ahora tienes que hacerlo solo con la nariz, porque puedes tener gafas de sol en los ojos y una máscara en la boca. Es decir, el problema se vuelve más complicado, y aquí lo mismo. Es necesario calcular los parámetros biológicos utilizando una pequeña cantidad de información, y hay una gran cantidad de tareas.



Hay muchas tareas, hay muchos tipos de datos. Se miden todos los parámetros de células, organismos y otras cosas. Ésta es un área muy interesante. Espero que si pensabas en ella antes, no te haya dejado de creer.




Que paso antes



  1. , Senior Software Engineer Facebook — ,
  2. , ML- — , Data Scientist
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —
  16. , - Google — Google-
  17. .
  18. Data Science ? Unity
  19. c Revolut
  20. : ,
  21. — IT-
  22. — «Docker » , Devops,









All Articles