Revolución en la ingeniería biomédica...
Evo 2 es un modelo de inteligencia artificial que “lee” y “entiende” ADN igual que los modelos de lenguaje entienden texto.
Pero no solo lo entiende: predice qué hacen las mutaciones y puede generar nuevas secuencias de ADN completas.
Es como un ChatGPT del ADN, pero entrenado con una cantidad gigantesca de información biológica.
Hasta ahora, incluso con CRISPR y secuenciación masiva, no entendemos bien qué hace la mayor parte del genoma.
Evo 2 aprende directamente de secuencias de todos los reinos de la vida, lo que le permite:
Predecir si una mutación será dañina o no.
Interpretar regiones no codificantes (que son la mayoría del genoma).
Reconocer patrones biológicos sin que nadie se los enseñe explícitamente.
Esto es como pasar de leer letras sueltas a entender el idioma completo del ADN.
Evo 2 es para la biología lo que los grandes modelos de lenguaje fueron para el texto.
Permite:
Comprender mejor cómo funciona el genoma.
Predecir efectos de mutaciones con precisión.
Diseñar ADN funcional a gran escala.
Acelerar la biología sintética y la medicina personalizada.
Democratizar el acceso a herramientas de vanguardia.
Es un paso hacia modelos que entienden y diseñan vida con un nivel de detalle que antes era imposible.
Un modelo de IA con “memoria” genómica gigantesca
La ventana de contexto de 1 millón de tokens significa que Evo 2 puede analizar regiones enormes del genoma a la vez, manteniendo relaciones a larga distancia. Esto es crucial porque:
La regulación genética depende de interacciones lejanas.
Muchos efectos de mutaciones no están cerca del gen que afectan.
Es como poder leer un libro entero, no solo un párrafo.
Es completamente abierto
Esto es enorme. Modelos así suelen ser cerrados por motivos comerciales o de bioseguridad. Al hacerlo abierto:
Cualquier laboratorio puede usarlo.
Se acelera la investigación global.
Se democratiza la biología computacional.
Es comparable a cuando se liberó el código de Linux o los modelos de lenguaje abiertos
Interpretabilidad: el modelo “entiende” biología real
El modelo identifica:
límites exón–intrón
sitios de unión de factores de transcripción
estructuras de proteínas
regiones virales integradas
Esto indica que ha aprendido conceptos biológicos reales, no solo patrones estadísticos superficiales.
Predicciones clínicas sin entrenamiento específico
Evo 2 puede evaluar variantes en genes como BRCA1 (relacionado con cáncer de mama) sin haber sido entrenado específicamente para ello. Esto abre la puerta a:
Interpretar variantes genéticas raras.
Mejorar diagnósticos.
Priorizar mutaciones para estudios clínicos.
Es un paso hacia una medicina más precisa.
Generación de ADN a escala de genoma
Evo 2 no solo predice: genera secuencias completas (mitocondriales, bacterianas, eucariotas) con coherencia biológica. Esto podría permitir:
Diseñar organismos sintéticos más estables.
Crear genes o circuitos biológicos funcionales.
Explorar “espacios evolutivos” que la naturaleza no ha probado.
Es como pasar de editar frases a escribir libros enteros en el lenguaje de la vida.
Genome modelling and design across all domains of life with Evo 2
Los modelos de inteligencia artificial que aprenden información a partir de secuencias genómicas de organismos diversos han mejorado cada vez más sus capacidades de predicción y diseño
Aquí presentamos Evo 2, un modelo fundacional biológico entrenado con 9 billones (trillion) de pares de bases de ADN procedentes de un atlas genómico altamente curado que abarca todos los dominios de la vida, y que posee una ventana de contexto de 1 millón de tokens con resolución de nucleótido individual.
Evo 2 aprende a predecir con precisión los impactos funcionales de variaciones genéticas —desde mutaciones patogénicas en regiones no codificantes hasta variantes clínicamente relevantes en BRCA1— sin necesidad de ajuste específico para cada tarea.
Los análisis de interpretabilidad mecanística muestran que Evo 2 aprende representaciones asociadas a características biológicas como límites exón–intrón, sitios de unión de factores de transcripción, elementos estructurales de proteínas y regiones genómicas de profagos.
Las capacidades generativas de Evo 2 producen secuencias mitocondriales, procariotas y eucariotas a escala de genoma con mayor naturalidad y coherencia que métodos anteriores. Evo 2 también genera patrones de accesibilidad de cromatina validados experimentalmente cuando se guía mediante modelos predictivos y búsqueda durante la inferencia.
Hemos hecho que Evo 2 sea completamente abierto, incluidos los parámetros del modelo, el código de entrenamiento, el código de inferencia y el conjunto de datos OpenGenome2, para acelerar la exploración y el diseño de la complejidad biológica
Evo 2 es un modelo generalista para toda la vida
Significa que no está especializado en un solo organismo (como humanos o bacterias), sino que funciona:
en animales
plantas
hongos
bacterias
arqueas
mitocondrias
Esto es muy raro y muy potente: un único modelo que entiende patrones comunes a toda la vida.
2. Lo han hecho completamente abierto
Esto incluye:
los parámetros del modelo (el “cerebro”)
el código para entrenarlo
el código para usarlo
el dataset completo con el que se entrenó
Esto es equivalente a publicar todo el motor de un coche de Fórmula 1, no solo dejar que lo conduzcas.
Además, ofrecen herramientas web para:
generar y puntuar secuencias de ADN
explorar cómo el modelo “ve” características biológicas
Tamaños del modelo
Hay varias versiones:
- 40B parámetros, contexto 1 millón → la mejor
- 7B parámetros, contexto 1 millón → más ligera pero muy buena
- 1B parámetros, contexto corto → experimental y no recomendada
El contexto de 1 millón significa que puede analizar regiones enormes del genoma de una sola vez
Seguridad, ética y riesgos
Los autores reconocen que un modelo así podría usarse mal si no se controla.Por eso tomaron medidas importantes:
a) Excluyeron virus que infectan humanos y otros eucariotas
No entrenaron al modelo con genomas de virus peligrosos.
Resultado:
El modelo no sabe generar virus humanos funcionales
- si se le pide, produce secuencias aleatorias e inútiles
Esto se comprobó con pruebas de “red teaming” (intentos deliberados de forzarlo a comportarse mal).
Evaluaron sesgos poblacionales
El modelo no está centrado en una población humana concreta, así que:
- no favorece ni discrimina variantes según origen genético
- evita errores comunes en modelos entrenados solo con datos humanos
Evaluaron riesgos de uso indebido
Incluye:
- análisis de seguridad
- análisis ético
- revisión por expertos de distintas disciplinas
Es uno de los esfuerzos más completos hasta ahora en modelos biológicos.
Qué se podrá hacer en el futuro
Los autores ven Evo 2 como una base, no como el final.
Podría mejorar si se combina con:
- datos de variación genética de poblaciones humanas
- datos experimentales que relacionan secuencia con función
- técnicas de aprendizaje reforzado con retroalimentación de experimentos reales
Podría permitir:
- diseñar funciones biológicas más complejas
- descubrir nuevos elementos genéticos
- simular cómo afectan mutaciones a la salud y la enfermedad
- crear herramientas de biología sintética más potentes
La serie Evo (Evo 1 → Evo 2 → futuros modelos) apunta a algo muy ambicioso:
Un modelo unificado que entienda la biología desde el nivel del ADN hasta el nivel del organismo.
Eso significaría:
- predecir cómo una mutación afecta a una proteína
- cómo esa proteína afecta a una célula
- cómo eso afecta a un tejido
- y cómo eso afecta a un organismo entero
Todo dentro de un único sistema.
Evo 2 es un modelo de IA que entiende y genera ADN a escala de genoma, es completamente abierto, incorpora medidas de seguridad, y sienta las bases para diseñar y comprender la vida de forma programable.
Genome modelling and design across all domains of life with Evo 2
Emphasizing generalist capabilities over task-specific optimization, Evo 2 represents an important milestone in biological sequence modelling, laying a broad foundation for prediction and design tasks that are relevant to all modalities of the central dogma, that span molecular to genome scale and that generalize across all domains of life.
Evo 2 architecture, training, and data
Evo 2 was trained on prokaryotic and eukaryotic genetic sequences, with potential downstream utility for predictive and generative tasks across multiple scales of complexity (Fig. 1a). We trained two versions of Evo 2: a smaller version with 7 billion parameters trained on 2.4 trillion tokens (Evo 2 7B), and a larger version with 40 billion parameters trained on 9.3 trillion tokens (Evo 2 40B). This new training dataset, which we call OpenGenome2, was compiled from curated, non-redundant nucleotide sequence data with a total of more than 8.8 trillion nucleotides from bacteria, archaea, eukarya and bacteriophage
We then demonstrated the generality of this approach by designing and experimentally testing the chromatin accessibility profiles of 1-4 kb sequences in two human cell lines, HEK293T and K562 (Methods). We tested designs with predicted chromatin accessibility patterns that differ between HEK293T and K562 cells, as well as designs with the same pattern in both cell lines (Fig. 6i,j and Extended Data Fig. 11b–h). We observed strong experimental success rates when we varied the level of chromatin accessibility within a designed sequence, with 33 out of 36 designs (92%) having an AUROC greater than 0.8 (Fig. 6k). When designing regions with differential accessibility between 2 cell types, a much more challenging task, we observed that 4 out of 24 of these designs (17%) had greater than twofold differential accessibility, and 1 out of 24 designs (4%) had greater than threefold differential accessibility (Fig. 6i and Extended Data Fig. 11b). In the four designs with more than twofold differential accessibility, the predicted transcription factor motifs in the design peaks were significantly enriched for K562-expressed transcription factors (one-sided hypergeometric P = 0.0017) (Extended Data Fig. 11i) but not for HEK293T-expressed transcription factors (one-sided hypergeometric P = 0.25) (Extended Data Fig. 11j).
This design task shows how Evo 2 can be coupled with task-specific supervised models to achieve controllable design of mammalian chromatin architecture. While beam search requires increasing inference-time compute (Fig. 6c) to improve generations, it is also highly flexible, requires no additional training compute and can leverage non-differentiable scoring functions. We note that other application-specific models could also be used to guide Evo 2’s generations (Fig. 6l), enabling biological design in any downstream application for which there exists a capable predictive model.
Discussion
Here we report a genomic language model, Evo 2, that achieves generalist prediction and design capabilities across all domains of life. Developing Evo 2 required substantial investment in machine learning research and engineering5, as well as data curation and evaluations. We provide several resources under an open-source license, including the following: (1) parameters for the Evo 2 models; (2) distributed training code; (3) code for multi-GPU inference; and (4) the full OpenGenome2 training dataset (Data availability and Code availability). The Evo 2 40B 1 million (1M)-context model demonstrates best overall performance, though the 7B 1M-context model is competitive and useful for settings requiring lightweight inference. Although we also release an experimental one-billion-parameter short-context model (Supplementary Table 1), this version should be avoided owing to overall weaker performance. We also release a tool for generating and scoring sequences with Evo 2 40B in a simple web interface (at https://arcinstitute.org/tools/evo/evo-designer) and a tool for exploring SAE features alongside genomic annotations (at https://arcinstitute.org/tools/evo/evo-mech-interp). Evo 2 is one of the largest-scale fully open models thus far (including training and inference code, data and parameters), even across other modalities, such as language and vision.
As with all new biotechnologies, there are safety, security and ethical considerations. Aligned with the Responsible AI × Biodesign commitments (https://responsiblebiodesign.ai/), we preemptively assessed and mitigated potential concerns prior to open source publication. Fully open-source models enable researchers to interrogate, reproduce, and build upon advances in artificial intelligence. They may also be used in unanticipated ways that could lead to accident or misuse risks54. We collaborated with multidisciplinary experts to reduce risks via data exclusion measures, safety and security evaluations, and population bias evaluations (Methods). By excluding genomic sequences of viruses that infect eukaryotes from our training data, we aimed to ensure our openly shared model did not disseminate the capability to manipulate and design pathogenic human viruses. Task-specific post-training may circumvent this risk mitigation measure and should be approached with caution. Our data exclusions had the intended outcomes of weakening language modelling performance (Extended Data Fig. 2a) and downstream mutational effect prediction (Extended Data Fig. 2b) on human viruses. Probing and testing these measures by red teaming meant to directly elicit pathogenic human viral proteins showed generations were effectively random in this domain (Extended Data Fig. 2c). We also showed that the population-free design of Evo 2 mitigated ancestry biases in model predictions55 (Extended Data Fig. 2d). Few examples of empirical risk assessment of biological foundation models exist; this work represents one of the most comprehensive evaluative efforts thus far that considers both precaution and access. Further research is also needed to expand the suite of available evaluations and risk mitigation approaches.
Evo 2 offers a powerful foundation for future work. Combining Evo 2 with additional information such as population-scale genomic variation56,57 or data from sequence-to-function experiments3,58 could enable an even greater breadth of downstream tasks. Whereas our mechanistic interpretability analysis focused primarily on well-annotated features, future work could leverage these approaches for genome mining and the discovery of more complex combinations of biological elements. Although Evo 2 generates more realistic DNA sequences than Evo 1, the current generative evaluations described in this study do not guarantee that the sequences will function in cells. Improving generation with inference-time guidance can notably require computationally intensive sampling. Supervised fine-tuning and reinforcement learning with feedback from biological experiments is likely to improve the efficiency and quality of sequences generated by Evo 2 for complex applications.
The Evo series of models lays the groundwork for biological modelling and design that unifies the diverse length scales of biology with a common representation. These capabilities, combined with large-scale DNA manipulation59, may enable programmable design of more complex biological functions. We expect that future work integrating genomic sequence data with additional modalities could produce a model that productively simulates complex phenotypes in health and disease
¿Qué puede hacer Evo 2?
Lee el ADN como si fuera un cuento muy largo.
Adivina qué pasa si cambias una “letra” del ADN, por ejemplo si una mutación puede causar una enfermedad.
Puede inventar nuevas secuencias de ADN que parezcan reales, como si escribiera nuevos capítulos del libro de la vida.
Reconoce partes importantes del ADN, como dónde empieza un gen o dónde se pega una proteína.
Está entrenado con muchísima información de todos los seres vivos.
Puede leer trozos gigantes de ADN de una sola vez.
Lo han hecho completamente abierto, para que científicos de todo el mundo lo usen.
Tiene herramientas fáciles para probar ideas y ver cómo funciona.
Evo 2 podría ayudar a:
entender mejor cómo funciona el cuerpo
descubrir por qué algunas mutaciones causan enfermedades
diseñar medicinas nuevas
crear organismos útiles para el planeta
aprender más sobre cómo funciona la vida
Es como tener un microscopio inteligente que no solo mira, sino que también entiende
Evo 2 es una inteligencia artificial que entiende el ADN de una forma muy parecida a como los modelos de lenguaje entienden textos.
En medicina, esto significa algo muy poderoso: puede ayudar a interpretar el genoma humano y predecir cómo afectan las mutaciones a la salud.
Uno de los mayores problemas en genética clínica es que muchas mutaciones se clasifican como:
“de significado incierto”
“probablemente benignas”
“probablemente patogénicas”
Evo 2 puede analizar una mutación dentro de un contexto enorme del genoma y predecir si esa variante afecta a la función, incluso en:
regiones no codificantes
intrones
promotores
enhancers
Esto ayuda a:
aclarar diagnósticos
priorizar variantes para estudios
reducir la incertidumbre en genética clínica
Por ejemplo, puede evaluar variantes en BRCA1 sin entrenamiento específico, algo muy útil en cáncer hereditario.
Muchas enfermedades no dependen de un solo gen, sino de:
miles de variantes pequeñas
regiones reguladoras
interacciones a larga distancia en el ADN
Evo 2 puede leer regiones enormes del genoma (hasta 1 millón de nucleótidos a la vez), lo que permite:
detectar patrones que antes no veíamos
entender cómo mutaciones lejanas afectan a un gen
estudiar redes reguladoras completas
Esto abre la puerta a comprender mejor enfermedades como:
cáncer
enfermedades autoinmunes
trastornos neurológicos
enfermedades raras
Evo 2 puede generar ADN coherente y funcional, lo que podría ayudar a:
diseñar vectores más seguros para terapia génica
crear secuencias optimizadas para expresar proteínas terapéuticas
mejorar la estabilidad de genes sintéticos
diseñar circuitos genéticos para terapias celulares
Aunque todavía no garantiza que las secuencias funcionen en células, es un paso enorme hacia terapias más precisas.
Muchos modelos necesitan datos clínicos o experimentales para aprender. Evo 2 no: aprende directamente del ADN de miles de especies.
Esto permite:
predecir efectos de mutaciones raras que nunca se han visto en pacientes
estudiar enfermedades poco frecuentes
generar hipótesis para investigación clínica
Es especialmente útil en enfermedades raras, donde los datos son escasos.
Evo 2 reconoce:
límites exón–intrón
sitios de unión de factores de transcripción
estructuras de proteínas
regiones virales integradas
Esto significa que no solo predice, sino que entiende conceptos biológicos relevantes para la medicina.
Evo 2 es solo el comienzo.
En medicina podría permitir:
diagnósticos genéticos más rápidos y precisos
terapias génicas diseñadas con mayor seguridad
predicción de respuesta a tratamientos
simulación de enfermedades a nivel molecular
descubrimiento de nuevos genes implicados en patologías
A largo plazo, modelos así podrían ayudar a simular fenotipos completos, acercándonos a una medicina verdaderamente personalizada.
Evo 2 es una herramienta que puede transformar la medicina al permitir interpretar mutaciones, comprender enfermedades complejas y diseñar terapias genéticas con una precisión nunca vista.
Aplicado a Cardiologia
La cardiología moderna depende cada vez más de entender cómo el ADN influye en el corazón: su estructura, su ritmo, su respuesta al estrés y su riesgo de enfermedad. Evo 2 es una herramienta que puede acelerar ese entendimiento porque interpreta mutaciones y patrones genéticos con una precisión que antes no existía
Muchas enfermedades del corazón tienen un componente genético fuerte:
Miocardiopatía hipertrófica
Miocardiopatía dilatada
Miocardiopatía arritmogénica
Síndrome de QT largo
Síndrome de Brugada
Aneurismas aórticos familiares
El problema es que muchas variantes encontradas en estos genes son de significado incierto.
Evo 2 puede:
predecir si una mutación altera la función de un gen cardiaco
evaluar variantes raras que nunca se han visto en pacientes
interpretar regiones reguladoras que afectan la expresión de genes del corazón
Esto ayuda a:
aclarar diagnósticos
identificar pacientes en riesgo
orientar decisiones clínicas y familiares
Las arritmias complejas no siempre se deben a un solo gen.
Dependen de:
canales iónicos
proteínas estructurales
reguladores de la expresión génica
interacciones entre múltiples variantes
Evo 2 puede analizar regiones enormes del genoma y detectar patrones que afectan:
la conducción eléctrica
la repolarización
la estabilidad del ritmo
Esto abre la puerta a:
identificar nuevos genes implicados en arritmias
entender por qué algunos pacientes tienen arritmias graves con mutaciones “leves”
mejorar la estratificación del riesgo
La enfermedad coronaria es multifactorial.
Miles de variantes pequeñas influyen en:
inflamación
metabolismo lipídico
función endotelial
respuesta al estrés oxidativo
Evo 2 puede ayudar a:
interpretar variantes no codificantes que afectan la regulación de genes cardiometabólicos
mejorar modelos poligénicos de riesgo
identificar subgrupos de pacientes con riesgo elevado antes de que aparezca la enfermedad
no se regenera fácilmente
tiene células muy especializadas
requiere precisión extrema en la expresión génica
diseñar vectores más seguros para terapia génica cardiaca
optimizar secuencias para expresar proteínas terapéuticas (por ejemplo, en insuficiencia cardiaca)
crear circuitos genéticos que respondan a señales del corazón
límites exón–intrón
sitios de unión de factores de transcripción
elementos estructurales de proteínas
regiones reguladoras
descubrir nuevos elementos que controlan la función cardiaca
identificar regiones del genoma que afectan la hipertrofia, fibrosis o inflamación
generar hipótesis para investigación traslacional
Esto podría permitir una prevención más personalizada.
El corazón es un órgano difícil de tratar porque:
Evo 2 puede contribuir a:
Aunque aún no garantiza que las secuencias funcionen en células, es un paso hacia terapias más avanzadas.
Evo 2 reconoce patrones biológicos reales:
Esto permite:
El futuro de la cardiología con modelos como Evo 2
En los próximos años, modelos como Evo 2 podrían permitir:
diagnósticos genéticos instantáneos
predicción personalizada de riesgo cardiaco
terapias génicas diseñadas a medida
simulación de cómo una mutación afecta al corazón completo
descubrimiento de nuevos fármacos cardioprotectores
Es un paso hacia una cardiología de precisión, donde cada paciente recibe un tratamiento adaptado a su biología.
No hay comentarios:
Publicar un comentario