traductor

miércoles, 6 de diciembre de 2023

AlphaFold: a solution to a 50-year-old grand challenge in biology

 

RESEARCH

AlphaFold: a solution to a 50-year-old grand challenge in biology

Published
Authors

The AlphaFold team

In July 2022, we released AlphaFold protein structure predictions for nearly all catalogued proteins known to science. Read the latest blog here.

 

 Las proteínas son esenciales para la vida y sustentan prácticamente todas sus funciones. Son moléculas grandes y complejas, formadas por cadenas de aminoácidos, y lo que hace una proteína depende en gran medida de su estructura tridimensional única. Averiguar las formas de plegamiento de las proteínas es lo que se conoce como el "problema del plegamiento de las proteínas", y se ha mantenido como un gran reto en biología durante los últimos 50 años. En un importante avance científico, la última versión de nuestro sistema de IA AlphaFold ha sido reconocida como solución a este gran reto por los organizadores de la evaluación bienal Critical Assessment of protein Structure Prediction (CASP). Este avance demuestra el impacto que la IA puede tener en los descubrimientos científicos y su potencial para acelerar drásticamente el progreso en algunos de los campos más fundamentales que explican y dan forma a nuestro mundo.

La forma de una proteína está estrechamente relacionada con su función, y la capacidad de predecir su estructura permite comprender mejor lo que hace y cómo funciona. Muchos de los grandes retos mundiales, como el desarrollo de tratamientos para enfermedades o la búsqueda de enzimas que descompongan los residuos industriales, están fundamentalmente ligados a las proteínas y al papel que desempeñan.


 

Llevamos casi 50 años atascados en este problema: cómo se pliegan las proteínas. Ver a DeepMind encontrar una solución a este problema, después de haber trabajado personalmente en él durante tanto tiempo y tras tantas paradas y arranques, preguntándonos si alguna vez lo conseguiríamos, es un momento muy especial".

PROFESOR JOHN MOULT, COFUNDADOR Y PRESIDENTE DE CASP, UNIVERSIDAD DE MARYLAND

Desde hace muchos años, este tema es objeto de una intensa investigación científica, en la que se utilizan diversas técnicas experimentales para examinar y determinar las estructuras de las proteínas, como la resonancia magnética nuclear y la cristalografía de rayos X. Estas técnicas, así como otras más novedosas, se utilizan para determinar la estructura de las proteínas. Estas técnicas, así como métodos más novedosos como la criomicroscopía electrónica, dependen de un amplio proceso de ensayo y error, que puede llevar años de minucioso y laborioso trabajo por estructura, y requieren el uso de equipos especializados multimillonarios.


El "problema del plegamiento de proteínas


En su discurso de aceptación del Premio Nobel de Química de 1972, Christian Anfinsen postuló que, en teoría, la secuencia de aminoácidos de una proteína debería determinar por completo su estructura. Esta hipótesis desencadenó una búsqueda de cinco décadas para poder predecir computacionalmente la estructura tridimensional de una proteína basándose únicamente en su secuencia de aminoácidos 1D como alternativa complementaria a estos métodos experimentales caros y lentos. Sin embargo, una de las principales dificultades es que el número de formas en que una proteína podría plegarse antes de alcanzar su estructura 3D final es astronómico. En 1969, Cyrus Levinthal señaló que se tardaría más que la edad del universo conocido en enumerar todas las configuraciones posibles de una proteína típica mediante cálculos de fuerza bruta: Levinthal calculó 10^300 conformaciones posibles para una proteína típica. Sin embargo, en la naturaleza, las proteínas se pliegan espontáneamente, algunas en milisegundos, una dicotomía que a veces se conoce como la paradoja de Levinthal.



Resultados de la evaluación CASP14


En 1994, el profesor John Moult y el profesor Krzysztof Fidelis fundaron el CASP como una evaluación ciega bienal para catalizar la investigación, supervisar los avances y establecer el estado del arte en la predicción de estructuras proteicas. Es a la vez la norma de referencia para evaluar las técnicas de predicción y una comunidad mundial única basada en el esfuerzo compartido. El CASP elige estructuras de proteínas que se han determinado experimentalmente hace muy poco (algunas aún estaban pendientes de determinación en el momento de la evaluación) para que los equipos pongan a prueba sus métodos de predicción de estructuras; no se publican de antemano. Los participantes deben predecir a ciegas la estructura de las proteínas, y estas predicciones se comparan posteriormente con los datos experimentales reales cuando están disponibles. Estamos en deuda con los organizadores del CASP y con toda la comunidad, especialmente con los experimentadores cuyas estructuras permiten este tipo de evaluación rigurosa.

 

ch

01:52


The main metric used by CASP to measure the accuracy of predictions is the Global Distance Test (GDT) which ranges from 0-100. In simple terms, GDT can be approximately thought of as the percentage of amino acid residues (beads in the protein chain) within a threshold distance from the correct position. According to Professor Moult, a score of around 90 GDT is informally considered to be competitive with results obtained from experimental methods.

In the results from the 14th CASP assessment, released today, our latest AlphaFold system achieves a median score of 92.4 GDT overall across all targets. This means that our predictions have an average error (RMSD) of approximately 1.6 Angstroms, which is comparable to the width of an atom (or 0.1 of a nanometer). Even for the very hardest protein targets, those in the most challenging free-modelling category, AlphaFold achieves a median score of 87.0 GDT (data available here).


Improvements in the median accuracy of predictions in the free modelling category for the best team in each CASP, measured as best-of-5 GDT.


Two examples of protein targets in the free modelling category. AlphaFold predicts highly accurate structures measured against experimental result.

These exciting results open up the potential for biologists to use computational structure prediction as a core tool in scientific research. Our methods may prove especially helpful for important classes of proteins, such as membrane proteins, that are very difficult to crystallise and therefore challenging to experimentally determine.ew




A bar graph showing the median free-modelling accuracy for CAPS7-12, AlphaFold, and Alphafold 2.

Improvements in the median accuracy of predictions in the free modelling category for the best team in each CASP, measured as best-of-5 GDT.

Animated 3D protein targets turning 360 degrees. The experimental result is shown in green lines, and the computational prediction is blue. The two sets of lines are almost identical.

Two examples of protein targets in the free modelling category. AlphaFold predicts highly accurate structures measured against experimental result.

These exciting results open up the potential for biologists to use computational structure prediction as a core tool in scientific research. Our methods may prove especially helpful for important classes of proteins, such as membrane proteins, that are very difficult to crystallise and therefore challenging to experimentally determine.

This computational work represents a stunning advance on the protein-folding problem, a 50-year-old grand challenge in biology. It has occurred decades before many people in the field would have predicted. It will be exciting to see the many ways in which it will fundamentally change biological research.

PROFESSOR VENKI RAMAKRISHNAN, NOBEL LAUREATE AND PRESIDENT OF THE ROYAL SOCIETY

Our approach to the protein-folding problem

Entramos por primera vez en CASP13 en 2018 con nuestra versión inicial de AlphaFold, que logró la mayor precisión entre los participantes. Posteriormente, publicamos un artículo sobre nuestros métodos CASP13 en Nature con código asociado, que ha servido de inspiración para otros trabajos e implementaciones de código abierto desarrolladas por la comunidad. Ahora, las nuevas arquitecturas de aprendizaje profundo que hemos desarrollado han impulsado cambios en nuestros métodos para CASP14, permitiéndonos alcanzar niveles de precisión sin precedentes. Estos métodos se inspiran en los campos de la biología, la física y el aprendizaje automático, así como, por supuesto, en el trabajo de muchos científicos en el campo del plegamiento de proteínas durante el último medio siglo.

A folded protein can be thought of as a “spatial graph”, where residues are the nodes and edges connect the residues in close proximity. This graph is important for understanding the physical interactions within proteins, as well as their evolutionary history. For the latest version of AlphaFold, used at CASP14, we created an attention-based neural network system, trained end-to-end, that attempts to interpret the structure of this graph, while reasoning over the implicit graph that it’s building. It uses evolutionarily related sequences, multiple sequence alignment (MSA), and a representation of amino acid residue pairs to refine this graph.

By iterating this process, the system develops strong predictions of the underlying physical structure of the protein and is able to determine highly-accurate structures in a matter of days. Additionally, AlphaFold can predict which parts of each predicted protein structure are reliable using an internal confidence measure.

We trained this system on publicly available data consisting of ~170,000 protein structures from the protein data bank together with large databases containing protein sequences of unknown structure. It uses approximately 16 TPUv3s (which is 128 TPUv3 cores or roughly equivalent to ~100-200 GPUs) run over a few weeks, a relatively modest amount of compute in the context of most large state-of-the-art models used in machine learning today. As with our CASP13 AlphaFold system, we are preparing a paper on our system to submit to a peer-reviewed journal in due course.

An overview of the main neural network model architecture. The model operates over evolutionarily related protein sequences as well as amino acid residue pairs, iteratively passing information between both representations to generate a structure.

The potential for real-world impact

When DeepMind started a decade ago, we hoped that one day AI breakthroughs would help serve as a platform to advance our understanding of fundamental scientific problems. Now, after 4 years of effort building AlphaFold, we’re starting to see that vision realised, with implications for areas like drug design and environmental sustainability.

Professor Andrei Lupas, Director of the Max Planck Institute for Developmental Biology and a CASP assessor, let us know that, “AlphaFold’s astonishingly accurate models have allowed us to solve a protein structure we were stuck on for close to a decade, relaunching our effort to understand how signals are transmitted across cell membranes.”

We’re optimistic about the impact AlphaFold can have on biological research and the wider world, and excited to collaborate with others to learn more about its potential in the years ahead. Alongside working on a peer-reviewed paper, we’re exploring how best to provide broader access to the system in a scalable way.

 

Mientras tanto, también estamos estudiando cómo las predicciones de estructuras proteicas podrían contribuir a nuestra comprensión de enfermedades específicas con un pequeño número de grupos especializados, por ejemplo ayudando a identificar proteínas que han funcionado mal y a razonar sobre cómo interactúan. Estos conocimientos podrían permitir un trabajo más preciso en el desarrollo de fármacos, complementando los métodos experimentales existentes para encontrar tratamientos prometedores con mayor rapidez.

    AlphaFold es un avance único en una generación, que predice las estructuras de las proteínas con una rapidez y precisión increíbles. Este salto adelante demuestra que los métodos computacionales están a punto de transformar la investigación biológica y son muy prometedores para acelerar el proceso de descubrimiento de fármacos.

ARTHUR D. LEVINSON, PHD, FOUNDER AND CEO CALICO, FORMER CHAIRMAN AND CEO GENENTECH

También hemos visto indicios de que la predicción de estructuras proteínicas podría ser útil en futuros esfuerzos de respuesta a pandemias, como una de las muchas herramientas desarrolladas por la comunidad científica. A principios de este año, predijimos varias estructuras de proteínas del virus SARS-CoV-2, incluida la ORF3a, cuyas estructuras se desconocían hasta entonces. En el CASP14, predecimos la estructura de otra proteína del coronavirus, la ORF8. El rápido trabajo de los experimentadores ha confirmado las estructuras de ORF3a y ORF8. A pesar de su difícil naturaleza y de tener muy pocas secuencias relacionadas, logramos un alto grado de precisión en ambas predicciones cuando las comparamos con sus estructuras determinadas experimentalmente.

Además de acelerar la comprensión de las enfermedades conocidas, estamos entusiasmados con el potencial de estas técnicas para explorar los cientos de millones de proteínas para las que actualmente no tenemos modelos, un vasto terreno de biología desconocida. Dado que el ADN especifica las secuencias de aminoácidos que componen las estructuras proteicas, la revolución genómica ha hecho posible leer secuencias de proteínas del mundo natural a gran escala, con 180 millones de secuencias proteicas y más en la base de datos Universal Protein (UniProt). En cambio, dado el trabajo experimental necesario para pasar de la secuencia a la estructura, sólo hay unas 170.000 estructuras proteicas en el Banco de Datos de Proteínas (PDB). Entre las proteínas indeterminadas puede haber algunas con funciones nuevas y apasionantes y -del mismo modo que un telescopio nos ayuda a ver más profundamente en el universo desconocido- técnicas como AlphaFold pueden ayudarnos a encontrarlas.

 

Abrir nuevas posibilidades


AlphaFold  es uno de nuestros avances más significativos hasta la fecha pero, como en toda investigación científica, aún quedan muchas preguntas por responder. No todas estructura que predecimos será perfecta. Aún queda mucho por aprender,

incluyendo cómo múltiples proteínas forman complejos, cómo interactúan con el ADN, ARN, o pequeñas moléculas, y cómo podemos determinar la ubicación precisa de todos los aminoácidos lado aminoácidos. En colaboración con otros, también hay mucho que aprender sobre cómo utilizar mejor estos descubrimientos científicos en el desarrollo de nuevos nuevos medicamentos, formas de gestionar el medio ambiente, etc.
Para  todos los que trabajamos en métodos computacionales y de aprendizaje
ciencia, sistemas como AlphaFold demuestran el asombroso potencial de la
la IA como herramienta de ayuda a los descubrimientos fundamentales. 

Hace 50 años, Anfinsen  Anfinsen planteó un reto fuera del alcance de la ciencia en ese momento, hay muchos aspectos de nuestro universo que siguen siendo desconocidos. muchos aspectos de nuestro universo que siguen siendo desconocidos. Los avances anunciados  anunciados hoy nos dan más confianza en que la IA se convertirá en una de las herramientas  herramientas más útiles de la humanidad para ampliar las fronteras del conocimiento científico,

y esperamos con impaciencia los muchos años de duro trabajo y descubrimientos
que nos esperan.

AlphaFold: a solution to a 50-year-old grand challenge in biology - Google DeepMind

AlphaFold: Using AI for scientific discovery - Google DeepMind

AlphaFold: Using AI for scientific discovery - Google DeepMind

Putting the power of AlphaFold into the world’s hands - Google DeepMind

Read about solving protein folding at deepmind.com/AlphaFold and see a timeline of our breakthrough here.

Ha pasado un año desde que lanzamos y pusimos en código abierto AlphaFold, nuestro sistema de IA para predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos 1D, y creamos la base de datos de estructuras proteicas AlphaFold (AlphaFold DB) para compartir libremente este conocimiento científico con el mundo. Las proteínas son los pilares de la vida y sustentan todos los procesos biológicos de los seres vivos. Y, dado que la forma de una proteína está estrechamente relacionada con su función, conocer su estructura permite comprender mejor lo que hace y cómo funciona. Esperábamos que este innovador recurso ayudara a acelerar la investigación y los descubrimientos científicos en todo el mundo, y que otros equipos pudieran aprender de los avances logrados con AlphaFold y basarse en ellos para crear nuevos avances. Esa esperanza se ha hecho realidad mucho antes de lo que nos habíamos atrevido a soñar. Sólo doce meses después, más de medio millón de investigadores han accedido a AlphaFold, que se ha utilizado para acelerar el progreso en importantes problemas del mundo real, desde la contaminación por plásticos hasta la resistencia a los antibióticos.



RESEARCH

AlphaFold reveals the structure of the protein universe

Published
Authors

Demis Hassabis

Read about solving protein folding at deepmind.com/AlphaFold and see a timeline of our breakthrough here.

Ha pasado un año desde que lanzamos y pusimos en código abierto AlphaFold, nuestro sistema de IA para predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos 1D, y creamos la base de datos de estructuras proteicas AlphaFold (AlphaFold DB) para compartir libremente este conocimiento científico con el mundo. Las proteínas son los pilares de la vida y sustentan todos los procesos biológicos de los seres vivos. Y, dado que la forma de una proteína está estrechamente relacionada con su función, conocer su estructura permite comprender mejor lo que hace y cómo funciona. Esperábamos que este innovador recurso ayudara a acelerar la investigación y los descubrimientos científicos en todo el mundo, y que otros equipos pudieran aprender de los avances logrados con AlphaFold y basarse en ellos para crear nuevos avances. Esa esperanza se ha hecho realidad mucho antes de lo que nos habíamos atrevido a soñar. Sólo doce meses después, más de medio millón de investigadores han accedido a AlphaFold, que se ha utilizado para acelerar el progreso en importantes problemas del mundo real, desde la contaminación por plásticos hasta la resistencia a los antibióticos.

Today, I’m incredibly excited to share the next stage of this journey. In partnership with EMBL’s European Bioinformatics Institute (EMBL-EBI), we’re now releasing predicted structures for nearly all catalogued proteins known to science, which will expand the AlphaFold DB by over 200x - from nearly 1 million structures to over 200 million structures - with the potential to dramatically increase our understanding of biology.

A proportional circle chart showing the number of protein structures. AlphaFold DB today in dark blue forms the largest circle, representing over 200 million structures. A smaller light blue circle towards the bottom of the main circle represents AlphaFold DB previously, which was around 1 million structures. Within that circle, a smaller purple one represents Experimental (PDB) today, made up of 190,000 structures.

This update includes predicted structures for plants, bacteria, animals, and other organisms, opening up many new opportunities for researchers to use AlphaFold to advance their work on important issues, including sustainability, food insecurity, and neglected diseases.

Today’s update means that most pages on the main protein database UniProt will come with a predicted structure. All 200+ million structures will also be available for bulk download via Google Cloud Public Datasets, making AlphaFold even more accessible to scientists around the world.

AlphaFold is the singular and momentous advance in life science that demonstrates the power of AI. Determining the 3D structure of a protein used to take many months or years, it now takes seconds. AlphaFold has already accelerated and enabled massive discoveries, including cracking the structure of the nuclear pore complex. And with this new addition of structures illuminating nearly the entire protein universe, we can expect more biological mysteries to be solved each day.

ERIC TOPOL
FOUNDER AND DIRECTOR OF THE SCRIPPS RESEARCH TRANSLATIONAL INSTITUTE

AlphaFold’s impact so far

 
Doce meses después del lanzamiento inicial de AlphaFold, ha sido increíble reflexionar sobre el increíble impacto que ya ha tenido AlphaFold y nuestro largo camino hasta alcanzar el hito de hoy.

Para nuestro equipo, el éxito de AlphaFold fue especialmente gratificante, tanto porque se trataba del sistema de IA más complejo que habíamos construido, que requería múltiples innovaciones críticas, como porque ha tenido el impacto posterior más significativo. Al demostrar que la IA podía predecir con precisión atómica la forma de una proteína, a gran escala y en cuestión de minutos, AlphaFold no sólo aportó una solución a un gran reto de 50 años, sino que también se convirtió en la primera gran prueba de nuestra tesis fundacional: que la inteligencia artificial puede acelerar drásticamente los descubrimientos científicos y, a su vez, hacer avanzar a la humanidad.

We open sourced AlphaFold’s code and published two in-depth papers in Nature [1, 2], which have already been cited more than 4000 times. We collaborated closely with the world-leading EMBL-EBI to design a tool that would best help biologists access and use AlphaFold, and together released the AlphaFold DB, a searchable database that is open and free to all. Before releasing AlphaFold, in line with our careful approach to pioneering responsibly, we sought input from more than 30 experts across biology research, security, ethics and safety to help us understand how to share the benefits of AlphaFold with the world, in a way that would maximise potential benefit and minimise potential risk.

 

Hasta la fecha, más de 500.000 investigadores de 190 países han accedido a la base de datos de AlphaFold para ver más de 2 millones de estructuras. Nuestras estructuras de libre acceso también se han integrado en otros conjuntos de datos públicos, como Ensembl, UniProt y OpenTargets, donde millones de usuarios acceden a ellas como parte de sus flujos de trabajo cotidianos.


AlphaFold reveals the structure of the protein universe - Google DeepMind



No hay comentarios: