19 de Agosto de 2022
Biología

La IA predice la forma de casi cualquier proteína conocida

AlphaFold, de DeepMind, ha determinado las estructuras de unos 200 millones de proteínas que se han incluido en una base de datos accesible a todo el mundo.

Proteína HFE [Emw/Wikimedia Commons, dominio público]

Desde este verano de 2022, si queremos saber cuál es la forma tridimensional de casi cualquier proteína conocida, nos bastará con buscarla en Google. Un equipo de investigadores ha utilizado AlphaFold (la revolucionaria red de inteligencia artificial) para predecir la estructura de más de 200 millones de proteínas de cerca de un millón de especies. Esa cifra incluye casi la totalidad de proteínas conocidas.

Dichas predicciones están disponibles de forma gratuita en una base de datos creada por DeepMind y por el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular (EMBL-EBI, por sus siglas en inglés), una organización intergubernamental cercana a Cambridge. DeepMind es una empresa de IA, propiedad de Google, cuya sede se encuentra en Londres.

Demis Hassabis, director ejecutivo de DeepMind, explicó en una sesión informativa que «hemos cubierto todo el universo proteico. Vivimos el inicio de una nueva era de la biología digital».

La estructura tridimensional de una proteína determina cuál será su función celular. La mayoría de fármacos se diseñan teniendo en cuenta esa información. Por esa razón, el primer paso para determinar cómo funciona una proteína es crear una cartografía precisa de la disposición de sus aminoácidos.

DeepMind desarrolló la red AlphaFold utilizando una técnica de IA llamada aprendizaje automático. La base de datos que presentaron hace un año contenía más de 350.000 predicciones de estructuras proteicas. Se puede decir que incluía casi todas las proteínas de los humanos, los ratones y otros 19 organismos que se han estudiado en profundidad. Desde entonces, el catálogo se ha ampliado y ya contiene cerca de un millón de entradas.

«Nos preparamos para el lanzamiento de este enorme tesoro», señala Christine Orengo, bióloga computacional de la University College de Londres, quien ha utilizado la base de datos de AlphaFold para identificar nuevas familias de proteínas. «Es fantástico contar con una predicción de sus estructuras.»

Estructuras de gran calidad

La presentación del año pasado causó un gran revuelo en la comunidad científica especializada. Desde entonces sus miembros no han dejado de utilizar esta nueva herramienta. La red proporciona predicciones muy precisas de muchas estructuras proteicas. También proporciona información sobre la precisión de sus predicciones, por lo que los que trabajan con ellas conocen su grado de fiabilidad. Hasta ahora, para poder conocer cuál era la estructura de una proteína había que recurrir a métodos experimentales como la cristalografía de rayos X y la criomicroscopía electrónica, que consumen una gran cantidad de tiempo.

Según el EMBL-EBI, alrededor del 35 por ciento de los más de 214 millones de predicciones realizadas tienen un nivel de precisión muy alto. Eso demuestra que son tan buenas como las estructuras determinadas de forma experimental. Otro 45 por ciento se consideran lo suficientemente fiables para ser utilizadas en muchas aplicaciones.

Es decir, una gran parte de las estructuras predichas por AlphaFold son lo suficientemente buenas para reemplazar a las determinadas de forma experimental. En otros casos, se pueden utilizar para validar los datos de laboratorio. Las predicciones de mala calidad suelen ser demasiado obvias y la causa es el desorden intrínseco de la propia proteína. Es decir, esas proteínas no tienen una forma definida, al menos no sin que estén presentes otras moléculas.

Los 200 millones de predicciones accesibles desde este verano se basan en las secuencias de otra base de datos, UniProt. Es probable que los científicos ya tengan una idea previa sobre las formas de algunas de estas proteínas, puesto que ya estaban incluidas en bases de datos de estructuras experimentales. También les pueden resultar familiares porque se parezcan a proteínas presentes en dichos archivos, señala Eduard Porta Pardo, biólogo computacional del Instituto de Investigación contra la Leucemia Josep Carreras (IJC), en Barcelona.

Sin embargo, la mayoría de las proteínas de esas bases de datos son humanas, de ratón y de otros mamíferos, añade Porta. AlphaFold ha incluido proteínas de una amplia variedad de organismos, por lo que es muy posible que amplíe nuestros conocimientos. «Va a ser un recurso muy útil. Seguro que me lo descargo tan pronto como esté disponible», comenta Porta.

Dado que el software de AlphaFold ha estado disponible durante un año, quien así lo haya deseado lo ha utilizado para predecir la estructura de cualquier proteína que quisiera. Muchos creen que el hecho de poder consultar las predicciones en una única base de datos ahorrará tiempo y dinero. «Es acabar con otra barrera», señala Porta. «He utilizado muchos modelos de AlphaFold, pero de momento no he usado la herramienta para crear los míos.»

Jan Kosinski, creador de modelos estructurales en el EMBL de Hamburgo, utilizó este programa durante todo el año pasado. Ahora tiene ganas de que aparezca ya la ampliación. Anteriormente, su equipo se pasó tres semanas analizando el proteoma (el conjunto de todas las proteínas de un organismo) de un patógeno. «Ahora solo necesitamos descargar todos los modelos», comentó en la sesión informativa.

Veintitrés terabytes

El hecho de tener la estructura de prácticamente cualquier proteína conocida posibilita la realización de nuevos estudios. Orengo y su equipo han utilizado esta base de datos para identificar nuevas familias de proteínas. En la actualidad intentan hacer lo mismo, pero a una escala mucho mayor. Se proponen utilizar la base de datos ampliada para entender la evolución de las proteínas que tienen propiedades útiles (por ejemplo, la capacidad de transformar plástico) o dañinas (como las que contribuyen a la aparición de un cáncer). La identificación, en la base de datos, de parientes distantes de estas proteínas puede ayudarnos a conocer el fundamento de sus propiedades.

Martin Steinegger, biólogo computacional de la Universidad Nacional de Seúl, ayudó a desarrollar una versión en la nube de AlphaFold. También está ansioso por ver la ampliación. Según él, es probable que los interesados tengan que manejar la red ellos mismos. Cada vez más gente la utiliza para determinar cómo interactúan las proteínas, y esas predicciones no forman parte de la base de datos. Tampoco hay proteínas microbianas identificadas por la secuenciación de material genético presente en el suelo, en el agua oceánica y en otras fuentes «metagenómicas».

Algunas aplicaciones sofisticadas precisarán que se descargue todo el contenido de la base de datos ampliada (23 terabytes). Steinegger cree que eso no será factible para muchos equipos. El almacenamiento en una nube también puede ser costoso. Por esa razón, ha desarrollado una herramienta llamada FoldSeek que puede detectar rápidamente proteínas estructuralmente parecidas. También podrá compactar los datos de AlphaFold considerablemente.

Aunque ya están incluidas la práctica totalidad de proteínas conocidas, la base de datos se irá actualizando a medida que se descubran nuevos organismos. Las predicciones también se mejoran cuando aparece alguna nueva información sobre la estructura de alguna proteína. Hassabis recalca que DeepMind se ha comprometido a respaldar su base datos a largo plazo, por lo que aparecerán actualizaciones cada año.

Su esperanza es que la disponibilidad de la base de datos de AlphaFold cause un impacto duradero en las ciencias de la vida. «Va a ser necesario que se produzca un gran cambio de mentalidad.»

Ewen Callaway/Nature News

Artículo traducido y adaptado por Investigación y Ciencia con el permiso de Nature Research Group.

Referencia: «AlphaFold predicts structure of almost every catalogued protein known to science»; comunicado oficial del EMBL-EBI, 28 de julio de 2022.

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.

Responsable: Prensa Científica, S.A. Finalidad: enviarle por correo electrónico los boletines que haya solicitado recibir. Derechos: tiene derecho a acceder, rectificar y suprimir sus datos, así como a otros derechos, como se explica en la información adicional y detallada que puede consultar en nuestra Política de Privacidad.