AlphaFold: a solution to a 50-year-old grand challenge in biology
Published
Authors
The AlphaFold team
In July 2022, we released AlphaFold protein structure predictions for nearly all catalogued proteins known to science. Read the latest bloghere.
Las proteínas son esenciales para la vida y sustentan prácticamente todas sus funciones. Son moléculas grandes y complejas, formadas por cadenas de aminoácidos, y lo que hace una proteína depende en gran medida de su estructura tridimensional única. Averiguar las formas de plegamiento de las proteínas es lo que se conoce como el "problema del plegamiento de las proteínas", y se ha mantenido como un gran reto en biología durante los últimos 50 años. En un importante avance científico, la última versión de nuestro sistema de IA AlphaFold ha sido reconocida como solución a este gran reto por los organizadores de la evaluación bienal Critical Assessment of protein Structure Prediction (CASP). Este avance demuestra el impacto que la IA puede tener en los descubrimientos científicos y su potencial para acelerar drásticamente el progreso en algunos de los campos más fundamentales que explican y dan forma a nuestro mundo.
La forma de una proteína está estrechamente relacionada con su función, y la capacidad de predecir su estructura permite comprender mejor lo que hace y cómo funciona. Muchos de los grandes retos mundiales, como el desarrollo de tratamientos para enfermedades o la búsqueda de enzimas que descompongan los residuos industriales, están fundamentalmente ligados a las proteínas y al papel que desempeñan.
Llevamos casi 50 años atascados en este problema: cómo se pliegan las proteínas. Ver a DeepMind encontrar una solución a este problema, después de haber trabajado personalmente en él durante tanto tiempo y tras tantas paradas y arranques, preguntándonos si alguna vez lo conseguiríamos, es un momento muy especial".
PROFESOR JOHN MOULT, COFUNDADOR Y PRESIDENTE DE CASP, UNIVERSIDAD DE MARYLAND
Desde hace muchos años, este tema es objeto de una intensa investigación científica, en la que se utilizan diversas técnicas experimentales para examinar y determinar las estructuras de las proteínas, como la resonancia magnética nuclear y la cristalografía de rayos X. Estas técnicas, así como otras más novedosas, se utilizan para determinar la estructura de las proteínas. Estas técnicas, así como métodos más novedosos como la criomicroscopía electrónica, dependen de un amplio proceso de ensayo y error, que puede llevar años de minucioso y laborioso trabajo por estructura, y requieren el uso de equipos especializados multimillonarios. El "problema del plegamiento de proteínas
En su discurso de aceptación del Premio Nobel de Química de 1972, Christian Anfinsen postuló que, en teoría, la secuencia de aminoácidos de una proteína debería determinar por completo su estructura. Esta hipótesis desencadenó una búsqueda de cinco décadas para poder predecir computacionalmente la estructura tridimensional de una proteína basándose únicamente en su secuencia de aminoácidos 1D como alternativa complementaria a estos métodos experimentales caros y lentos. Sin embargo, una de las principales dificultades es que el número de formas en que una proteína podría plegarse antes de alcanzar su estructura 3D final es astronómico. En 1969, Cyrus Levinthal señaló que se tardaría más que la edad del universo conocido en enumerar todas las configuraciones posibles de una proteína típica mediante cálculos de fuerza bruta: Levinthal calculó 10^300 conformaciones posibles para una proteína típica. Sin embargo, en la naturaleza, las proteínas se pliegan espontáneamente, algunas en milisegundos, una dicotomía que a veces se conoce como la paradoja de Levinthal.
Resultados de la evaluación CASP14
En 1994, el profesor John Moult y el profesor Krzysztof Fidelis fundaron el CASP como una evaluación ciega bienal para catalizar la investigación, supervisar los avances y establecer el estado del arte en la predicción de estructuras proteicas. Es a la vez la norma de referencia para evaluar las técnicas de predicción y una comunidad mundial única basada en el esfuerzo compartido. El CASP elige estructuras de proteínas que se han determinado experimentalmente hace muy poco (algunas aún estaban pendientes de determinación en el momento de la evaluación) para que los equipos pongan a prueba sus métodos de predicción de estructuras; no se publican de antemano. Los participantes deben predecir a ciegas la estructura de las proteínas, y estas predicciones se comparan posteriormente con los datos experimentales reales cuando están disponibles. Estamos en deuda con los organizadores del CASP y con toda la comunidad, especialmente con los experimentadores cuyas estructuras permiten este tipo de evaluación rigurosa.
The main metric used by CASP to measure the accuracy of predictions is the Global Distance Test (GDT) which ranges from 0-100. In simple terms, GDT can be approximately thought of as the percentage of amino acid residues (beads in the protein chain) within a threshold distance from the correct position. According to Professor Moult, a score of around 90 GDT is informally considered to be competitive with results obtained from experimental methods.
In the results from the 14th CASP assessment, released today, our latest AlphaFold system achieves a median score of 92.4 GDT overall across all targets. This means that our predictions have an average error (RMSD) of approximately 1.6 Angstroms, which is comparable to the width of an atom (or 0.1 of a nanometer). Even for the very hardest protein targets, those in the most challenging free-modelling category, AlphaFold achieves a median score of 87.0 GDT (data available here).
No hay comentarios:
Publicar un comentario