Revolución en la ingeniería biomédica...

Evo 2 es un modelo de inteligencia artificial que “lee” y “entiende” ADN igual que los modelos de lenguaje entienden texto.

Pero no solo lo entiende: predice qué hacen las mutaciones y puede generar nuevas secuencias de ADN completas.

Es como un ChatGPT del ADN, pero entrenado con una cantidad gigantesca de información biológica.

Hasta ahora, incluso con CRISPR y secuenciación masiva, no entendemos bien qué hace la mayor parte del genoma.

Evo 2 aprende directamente de secuencias de todos los reinos de la vida, lo que le permite:

Predecir si una mutación será dañina o no.
Interpretar regiones no codificantes (que son la mayoría del genoma).
Reconocer patrones biológicos sin que nadie se los enseñe explícitamente.

Esto es como pasar de leer letras sueltas a entender el idioma completo del ADN.

Evo 2 es para la biología lo que los grandes modelos de lenguaje fueron para el texto.

Permite:

Comprender mejor cómo funciona el genoma.
Predecir efectos de mutaciones con precisión.
Diseñar ADN funcional a gran escala.
Acelerar la biología sintética y la medicina personalizada.
Democratizar el acceso a herramientas de vanguardia.

Es un paso hacia modelos que entienden y diseñan vida con un nivel de detalle que antes era imposible.

Un modelo de IA con “memoria” genómica gigantesca

La ventana de contexto de 1 millón de tokens significa que Evo 2 puede analizar regiones enormes del genoma a la vez, manteniendo relaciones a larga distancia. Esto es crucial porque:

La regulación genética depende de interacciones lejanas.
Muchos efectos de mutaciones no están cerca del gen que afectan.

Es como poder leer un libro entero, no solo un párrafo.

Es completamente abierto

Esto es enorme. Modelos así suelen ser cerrados por motivos comerciales o de bioseguridad. Al hacerlo abierto:

Cualquier laboratorio puede usarlo.
Se acelera la investigación global.
Se democratiza la biología computacional.

Es comparable a cuando se liberó el código de Linux o los modelos de lenguaje abiertos

Interpretabilidad: el modelo “entiende” biología real

El modelo identifica:

límites exón–intrón
sitios de unión de factores de transcripción
estructuras de proteínas
regiones virales integradas

Esto indica que ha aprendido conceptos biológicos reales, no solo patrones estadísticos superficiales.

Predicciones clínicas sin entrenamiento específico

Evo 2 puede evaluar variantes en genes como BRCA1 (relacionado con cáncer de mama) sin haber sido entrenado específicamente para ello. Esto abre la puerta a:

Interpretar variantes genéticas raras.
Mejorar diagnósticos.
Priorizar mutaciones para estudios clínicos.

Es un paso hacia una medicina más precisa.

Generación de ADN a escala de genoma

Evo 2 no solo predice: genera secuencias completas (mitocondriales, bacterianas, eucariotas) con coherencia biológica. Esto podría permitir:

Diseñar organismos sintéticos más estables.
Crear genes o circuitos biológicos funcionales.
Explorar “espacios evolutivos” que la naturaleza no ha probado.

Es como pasar de editar frases a escribir libros enteros en el lenguaje de la vida.

Genome modelling and design across all domains of life with Evo 2

Toda la vida codifica información mediante ADN. Aunque las herramientas para secuenciar, sintetizar y editar genomas han transformado la investigación biológica, todavía carecemos de una comprensión suficiente de la inmensa complejidad codificada por los genomas como para predecir los efectos de muchas clases de cambios genómicos o para diseñar de forma inteligente nuevos sistemas biológicos.

Los modelos de inteligencia artificial que aprenden información a partir de secuencias genómicas de organismos diversos han mejorado cada vez más sus capacidades de predicción y diseño

Aquí presentamos Evo 2, un modelo fundacional biológico entrenado con 9 billones (trillion) de pares de bases de ADN procedentes de un atlas genómico altamente curado que abarca todos los dominios de la vida, y que posee una ventana de contexto de 1 millón de tokens con resolución de nucleótido individual.

Evo 2 aprende a predecir con precisión los impactos funcionales de variaciones genéticas —desde mutaciones patogénicas en regiones no codificantes hasta variantes clínicamente relevantes en BRCA1— sin necesidad de ajuste específico para cada tarea.

Los análisis de interpretabilidad mecanística muestran que Evo 2 aprende representaciones asociadas a características biológicas como límites exón–intrón, sitios de unión de factores de transcripción, elementos estructurales de proteínas y regiones genómicas de profagos.

Las capacidades generativas de Evo 2 producen secuencias mitocondriales, procariotas y eucariotas a escala de genoma con mayor naturalidad y coherencia que métodos anteriores. Evo 2 también genera patrones de accesibilidad de cromatina validados experimentalmente cuando se guía mediante modelos predictivos y búsqueda durante la inferencia.

Hemos hecho que Evo 2 sea completamente abierto, incluidos los parámetros del modelo, el código de entrenamiento, el código de inferencia y el conjunto de datos OpenGenome2, para acelerar la exploración y el diseño de la complejidad biológica

----------- Mirad este artículo que presenta Evo 2, un modelo de IA que ha aprendido el "lenguaje" del ADN desde bacterias hasta humanos... En concreto, lo interesante es que no solo detecta patrones, sino que empieza a captar reglas generales de cómo funciona la biología Específicamente, puede predecir con bastante precisión qué ocurre cuando hay mutaciones genéticas, e incluso generar secuencias complejas, pudiendo proponer genomas completos. Un ejemplo es su capacidad para identificar si ciertas mutaciones en genes humanos como BRCA1 están asociadas a mayor riesgo de cáncer… y todo esto sin haber sido entrenado directamente para ese caso Evo 2 se entrena con billones de nucleótidos de todas las formas de vida para aprender la distribución del ADN. Utiliza una arquitectura híbrida: 1. Redes convolucionales para la detección de patrones 2. Mecanismos atencionales para captar todas las relaciones Esta arquitectura captura patrones desde escalas locales hasta genómicas y un entrenamiento en dos fases que amplía progresivamente el contexto.

Evo 2 es un modelo generalista para toda la vida

Significa que no está especializado en un solo organismo (como humanos o bacterias), sino que funciona:

en animales
plantas
hongos
bacterias
arqueas
mitocondrias

Esto es muy raro y muy potente: un único modelo que entiende patrones comunes a toda la vida.

2. Lo han hecho completamente abierto

Esto incluye:

los parámetros del modelo (el “cerebro”)
el código para entrenarlo
el código para usarlo
el dataset completo con el que se entrenó

Esto es equivalente a publicar todo el motor de un coche de Fórmula 1, no solo dejar que lo conduzcas.

Además, ofrecen herramientas web para:

generar y puntuar secuencias de ADN
explorar cómo el modelo “ve” características biológicas

Tamaños del modelo

Hay varias versiones:
40B parámetros, contexto 1 millón → la mejor
7B parámetros, contexto 1 millón → más ligera pero muy buena
1B parámetros, contexto corto → experimental y no recomendada
El contexto de 1 millón significa que puede analizar regiones enormes del genoma de una sola vez

Seguridad, ética y riesgos

Los autores reconocen que un modelo así podría usarse mal si no se controla.Por eso tomaron medidas importantes:

a) Excluyeron virus que infectan humanos y otros eucariotas

No entrenaron al modelo con genomas de virus peligrosos.
Resultado:
El modelo no sabe generar virus humanos funcionales
si se le pide, produce secuencias aleatorias e inútiles
Esto se comprobó con pruebas de “red teaming” (intentos deliberados de forzarlo a comportarse mal).

Evaluaron sesgos poblacionales

El modelo no está centrado en una población humana concreta, así que:
no favorece ni discrimina variantes según origen genético
evita errores comunes en modelos entrenados solo con datos humanos

Evaluaron riesgos de uso indebido

Incluye:
análisis de seguridad
análisis ético
revisión por expertos de distintas disciplinas
Es uno de los esfuerzos más completos hasta ahora en modelos biológicos.

Qué se podrá hacer en el futuro

Los autores ven Evo 2 como una base, no como el final.

Podría mejorar si se combina con:

datos de variación genética de poblaciones humanas
datos experimentales que relacionan secuencia con función
técnicas de aprendizaje reforzado con retroalimentación de experimentos reales

Podría permitir:

diseñar funciones biológicas más complejas
descubrir nuevos elementos genéticos
simular cómo afectan mutaciones a la salud y la enfermedad
crear herramientas de biología sintética más potentes

La serie Evo (Evo 1 → Evo 2 → futuros modelos) apunta a algo muy ambicioso:
Un modelo unificado que entienda la biología desde el nivel del ADN hasta el nivel del organismo.
Eso significaría:
predecir cómo una mutación afecta a una proteína
cómo esa proteína afecta a una célula
cómo eso afecta a un tejido
y cómo eso afecta a un organismo entero
Todo dentro de un único sistema.
Evo 2 es un modelo de IA que entiende y genera ADN a escala de genoma, es completamente abierto, incorpora medidas de seguridad, y sienta las bases para diseñar y comprender la vida de forma programable.
Genome modelling and design across all domains of life with Evo 2

All of life encodes information with DNA. Although tools for genome sequencing, synthesis and editing have transformed biological research, we still lack sufficient understanding of the immense complexity encoded by genomes to predict the effects of many classes of genomic changes or to intelligently compose new biological systems. Artificial intelligence models that learn information from genomic sequences across diverse organisms have increasingly advanced prediction and design capabilities1,2. Here we introduce Evo 2, a biological foundation model trained on 9 trillion DNA base pairs from a highly curated genomic atlas spanning all domains of life to have a 1 million token context window with single-nucleotide resolution. Evo 2 learns to accurately predict the functional impacts of genetic variation—from noncoding pathogenic mutations to clinically significant BRCA1 variants—without task-specific fine-tuning. Mechanistic interpretability analyses reveal that Evo 2 learns representations associated with biological features, including exon–intron boundaries, transcription factor binding sites, protein structural elements and prophage genomic regions. The generative abilities of Evo 2 produce mitochondrial, prokaryotic and eukaryotic sequences at genome scale with greater naturalness and coherence than previous methods. Evo 2 also generates experimentally validated chromatin accessibility patterns when guided by predictive models3,4 and inference-time search. We have made Evo 2 fully open, including model parameters, training code5, inference code and the OpenGenome2 dataset, to accelerate the exploration and design of biological complexity.

Biological research spans scales from molecules to systems to organisms, seeking to understand and design functional components across all domains of life. Creating a machine to design functions across the diversity of life would require it to learn a deep, generalist representation of biological complexity. Although this complexity surpasses straightforward human intuition, advances in artificial intelligence offer a universal framework that leverages data and compute at scale to uncover higher-order patterns6,7. We reasoned that training a model with these capabilities would require data spanning the full spectrum of biological diversity to discover emergent properties similar to those found in other fields8

We previously demonstrated that machine learning models trained on prokaryotic genomic sequences can model the function of DNA, RNA and proteins, as well as their interactions that create complex molecular machines1,2. Here we present Evo 2, a biological foundation model trained on a representative snapshot of genomes spanning all domains of life. We extend the sequence modelling paradigm to the scale and complexity of eukaryotic genomes through advances in data curation, model architecture, large-scale pre-training, advanced interpretability methods and inference-time prediction and generation approaches

Emphasizing generalist capabilities over task-specific optimization, Evo 2 represents an important milestone in biological sequence modelling, laying a broad foundation for prediction and design tasks that are relevant to all modalities of the central dogma, that span molecular to genome scale and that generalize across all domains of life.

Evo 2 architecture, training, and data

Evo 2 was trained on prokaryotic and eukaryotic genetic sequences, with potential downstream utility for predictive and generative tasks across multiple scales of complexity (Fig. 1a). We trained two versions of Evo 2: a smaller version with 7 billion parameters trained on 2.4 trillion tokens (Evo 2 7B), and a larger version with 40 billion parameters trained on 9.3 trillion tokens (Evo 2 40B). This new training dataset, which we call OpenGenome2, was compiled from curated, non-redundant nucleotide sequence data with a total of more than 8.8 trillion nucleotides from bacteria, archaea, eukarya and bacteriophage

We then demonstrated the generality of this approach by designing and experimentally testing the chromatin accessibility profiles of 1-4 kb sequences in two human cell lines, HEK293T and K562 (Methods). We tested designs with predicted chromatin accessibility patterns that differ between HEK293T and K562 cells, as well as designs with the same pattern in both cell lines (Fig. 6i,j and Extended Data Fig. 11b–h). We observed strong experimental success rates when we varied the level of chromatin accessibility within a designed sequence, with 33 out of 36 designs (92%) having an AUROC greater than 0.8 (Fig. 6k). When designing regions with differential accessibility between 2 cell types, a much more challenging task, we observed that 4 out of 24 of these designs (17%) had greater than twofold differential accessibility, and 1 out of 24 designs (4%) had greater than threefold differential accessibility (Fig. 6i and Extended Data Fig. 11b). In the four designs with more than twofold differential accessibility, the predicted transcription factor motifs in the design peaks were significantly enriched for K562-expressed transcription factors (one-sided hypergeometric P = 0.0017) (Extended Data Fig. 11i) but not for HEK293T-expressed transcription factors (one-sided hypergeometric P = 0.25) (Extended Data Fig. 11j).

This design task shows how Evo 2 can be coupled with task-specific supervised models to achieve controllable design of mammalian chromatin architecture. While beam search requires increasing inference-time compute (Fig. 6c) to improve generations, it is also highly flexible, requires no additional training compute and can leverage non-differentiable scoring functions. We note that other application-specific models could also be used to guide Evo 2’s generations (Fig. 6l), enabling biological design in any downstream application for which there exists a capable predictive model.

Discussion

Here we report a genomic language model, Evo 2, that achieves generalist prediction and design capabilities across all domains of life. Developing Evo 2 required substantial investment in machine learning research and engineering5, as well as data curation and evaluations. We provide several resources under an open-source license, including the following: (1) parameters for the Evo 2 models; (2) distributed training code; (3) code for multi-GPU inference; and (4) the full OpenGenome2 training dataset (Data availability and Code availability). The Evo 2 40B 1 million (1M)-context model demonstrates best overall performance, though the 7B 1M-context model is competitive and useful for settings requiring lightweight inference. Although we also release an experimental one-billion-parameter short-context model (Supplementary Table 1), this version should be avoided owing to overall weaker performance. We also release a tool for generating and scoring sequences with Evo 2 40B in a simple web interface (at https://arcinstitute.org/tools/evo/evo-designer) and a tool for exploring SAE features alongside genomic annotations (at https://arcinstitute.org/tools/evo/evo-mech-interp). Evo 2 is one of the largest-scale fully open models thus far (including training and inference code, data and parameters), even across other modalities, such as language and vision.

As with all new biotechnologies, there are safety, security and ethical considerations. Aligned with the Responsible AI × Biodesign commitments (https://responsiblebiodesign.ai/), we preemptively assessed and mitigated potential concerns prior to open source publication. Fully open-source models enable researchers to interrogate, reproduce, and build upon advances in artificial intelligence. They may also be used in unanticipated ways that could lead to accident or misuse risks54. We collaborated with multidisciplinary experts to reduce risks via data exclusion measures, safety and security evaluations, and population bias evaluations (Methods). By excluding genomic sequences of viruses that infect eukaryotes from our training data, we aimed to ensure our openly shared model did not disseminate the capability to manipulate and design pathogenic human viruses. Task-specific post-training may circumvent this risk mitigation measure and should be approached with caution. Our data exclusions had the intended outcomes of weakening language modelling performance (Extended Data Fig. 2a) and downstream mutational effect prediction (Extended Data Fig. 2b) on human viruses. Probing and testing these measures by red teaming meant to directly elicit pathogenic human viral proteins showed generations were effectively random in this domain (Extended Data Fig. 2c). We also showed that the population-free design of Evo 2 mitigated ancestry biases in model predictions55 (Extended Data Fig. 2d). Few examples of empirical risk assessment of biological foundation models exist; this work represents one of the most comprehensive evaluative efforts thus far that considers both precaution and access. Further research is also needed to expand the suite of available evaluations and risk mitigation approaches.

Evo 2 offers a powerful foundation for future work. Combining Evo 2 with additional information such as population-scale genomic variation56,57 or data from sequence-to-function experiments3,58 could enable an even greater breadth of downstream tasks. Whereas our mechanistic interpretability analysis focused primarily on well-annotated features, future work could leverage these approaches for genome mining and the discovery of more complex combinations of biological elements. Although Evo 2 generates more realistic DNA sequences than Evo 1, the current generative evaluations described in this study do not guarantee that the sequences will function in cells. Improving generation with inference-time guidance can notably require computationally intensive sampling. Supervised fine-tuning and reinforcement learning with feedback from biological experiments is likely to improve the efficiency and quality of sequences generated by Evo 2 for complex applications.

The Evo series of models lays the groundwork for biological modelling and design that unifies the diverse length scales of biology with a common representation. These capabilities, combined with large-scale DNA manipulation59, may enable programmable design of more complex biological functions. We expect that future work integrating genomic sequence data with additional modalities could produce a model that productively simulates complex phenotypes in health and disease

https://www.nature.com/articles/s41586-026-10176-5

¿Qué puede hacer Evo 2?

Lee el ADN como si fuera un cuento muy largo.
Adivina qué pasa si cambias una “letra” del ADN, por ejemplo si una mutación puede causar una enfermedad.
Puede inventar nuevas secuencias de ADN que parezcan reales, como si escribiera nuevos capítulos del libro de la vida.
Reconoce partes importantes del ADN, como dónde empieza un gen o dónde se pega una proteína.
Está entrenado con muchísima información de todos los seres vivos.
Puede leer trozos gigantes de ADN de una sola vez.
Lo han hecho completamente abierto, para que científicos de todo el mundo lo usen.

Tiene herramientas fáciles para probar ideas y ver cómo funciona.

Evo 2 podría ayudar a:

entender mejor cómo funciona el cuerpo
descubrir por qué algunas mutaciones causan enfermedades
diseñar medicinas nuevas
crear organismos útiles para el planeta
aprender más sobre cómo funciona la vida

Es como tener un microscopio inteligente que no solo mira, sino que también entiende

Evo 2 es una inteligencia artificial que entiende el ADN de una forma muy parecida a como los modelos de lenguaje entienden textos.

En medicina, esto significa algo muy poderoso: puede ayudar a interpretar el genoma humano y predecir cómo afectan las mutaciones a la salud.

Uno de los mayores problemas en genética clínica es que muchas mutaciones se clasifican como:

“de significado incierto”
“probablemente benignas”
“probablemente patogénicas”

Evo 2 puede analizar una mutación dentro de un contexto enorme del genoma y predecir si esa variante afecta a la función, incluso en:

regiones no codificantes
intrones
promotores
enhancers

Esto ayuda a:

aclarar diagnósticos
priorizar variantes para estudios
reducir la incertidumbre en genética clínica

Por ejemplo, puede evaluar variantes en BRCA1 sin entrenamiento específico, algo muy útil en cáncer hereditario.

Muchas enfermedades no dependen de un solo gen, sino de:

miles de variantes pequeñas
regiones reguladoras
interacciones a larga distancia en el ADN

Evo 2 puede leer regiones enormes del genoma (hasta 1 millón de nucleótidos a la vez), lo que permite:

detectar patrones que antes no veíamos
entender cómo mutaciones lejanas afectan a un gen
estudiar redes reguladoras completas

Esto abre la puerta a comprender mejor enfermedades como:

cáncer
enfermedades autoinmunes
trastornos neurológicos
enfermedades raras

Evo 2 puede generar ADN coherente y funcional, lo que podría ayudar a:

diseñar vectores más seguros para terapia génica
crear secuencias optimizadas para expresar proteínas terapéuticas
mejorar la estabilidad de genes sintéticos
diseñar circuitos genéticos para terapias celulares

Aunque todavía no garantiza que las secuencias funcionen en células, es un paso enorme hacia terapias más precisas.

Muchos modelos necesitan datos clínicos o experimentales para aprender. Evo 2 no: aprende directamente del ADN de miles de especies.

Esto permite:

predecir efectos de mutaciones raras que nunca se han visto en pacientes
estudiar enfermedades poco frecuentes
generar hipótesis para investigación clínica

Es especialmente útil en enfermedades raras, donde los datos son escasos.

Evo 2 reconoce:

límites exón–intrón
sitios de unión de factores de transcripción
estructuras de proteínas
regiones virales integradas

Esto significa que no solo predice, sino que entiende conceptos biológicos relevantes para la medicina.

Evo 2 es solo el comienzo.

En medicina podría permitir:

diagnósticos genéticos más rápidos y precisos
terapias génicas diseñadas con mayor seguridad
predicción de respuesta a tratamientos
simulación de enfermedades a nivel molecular
descubrimiento de nuevos genes implicados en patologías

A largo plazo, modelos así podrían ayudar a simular fenotipos completos, acercándonos a una medicina verdaderamente personalizada.

Evo 2 es una herramienta que puede transformar la medicina al permitir interpretar mutaciones, comprender enfermedades complejas y diseñar terapias genéticas con una precisión nunca vista.

Aplicado a Cardiologia

La cardiología moderna depende cada vez más de entender cómo el ADN influye en el corazón: su estructura, su ritmo, su respuesta al estrés y su riesgo de enfermedad. Evo 2 es una herramienta que puede acelerar ese entendimiento porque interpreta mutaciones y patrones genéticos con una precisión que antes no existía

Muchas enfermedades del corazón tienen un componente genético fuerte:

Miocardiopatía hipertrófica
Miocardiopatía dilatada
Miocardiopatía arritmogénica
Síndrome de QT largo
Síndrome de Brugada
Aneurismas aórticos familiares

El problema es que muchas variantes encontradas en estos genes son de significado incierto.

Evo 2 puede:

predecir si una mutación altera la función de un gen cardiaco
evaluar variantes raras que nunca se han visto en pacientes
interpretar regiones reguladoras que afectan la expresión de genes del corazón

Esto ayuda a:

aclarar diagnósticos
identificar pacientes en riesgo
orientar decisiones clínicas y familiares

Las arritmias complejas no siempre se deben a un solo gen.

Dependen de:

canales iónicos
proteínas estructurales
reguladores de la expresión génica
interacciones entre múltiples variantes

Evo 2 puede analizar regiones enormes del genoma y detectar patrones que afectan:

la conducción eléctrica
la repolarización
la estabilidad del ritmo

Esto abre la puerta a:

identificar nuevos genes implicados en arritmias
entender por qué algunos pacientes tienen arritmias graves con mutaciones “leves”
mejorar la estratificación del riesgo

La enfermedad coronaria es multifactorial.

Miles de variantes pequeñas influyen en:

inflamación
metabolismo lipídico
función endotelial
respuesta al estrés oxidativo

Evo 2 puede ayudar a:

interpretar variantes no codificantes que afectan la regulación de genes cardiometabólicos
mejorar modelos poligénicos de riesgo
identificar subgrupos de pacientes con riesgo elevado antes de que aparezca la enfermedad

Esto podría permitir una prevención más personalizada.

El corazón es un órgano difícil de tratar porque:

no se regenera fácilmente
tiene células muy especializadas
requiere precisión extrema en la expresión génica

Evo 2 puede contribuir a:

diseñar vectores más seguros para terapia génica cardiaca
optimizar secuencias para expresar proteínas terapéuticas (por ejemplo, en insuficiencia cardiaca)
crear circuitos genéticos que respondan a señales del corazón

Aunque aún no garantiza que las secuencias funcionen en células, es un paso hacia terapias más avanzadas.

Evo 2 reconoce patrones biológicos reales:

límites exón–intrón
sitios de unión de factores de transcripción
elementos estructurales de proteínas
regiones reguladoras

Esto permite:

descubrir nuevos elementos que controlan la función cardiaca
identificar regiones del genoma que afectan la hipertrofia, fibrosis o inflamación
generar hipótesis para investigación traslacional

El futuro de la cardiología con modelos como Evo 2

En los próximos años, modelos como Evo 2 podrían permitir:

diagnósticos genéticos instantáneos
predicción personalizada de riesgo cardiaco
terapias génicas diseñadas a medida
simulación de cómo una mutación afecta al corazón completo
descubrimiento de nuevos fármacos cardioprotectores
Es un paso hacia una cardiología de precisión, donde cada paciente recibe un tratamiento adaptado a su biología.

notistecnicas

traductor

martes, 5 de mayo de 2026

Revolución en la ingeniería biomédica...Evo 2

Un modelo de IA con “memoria” genómica gigantesca

Es completamente abierto

Interpretabilidad: el modelo “entiende” biología real

Predicciones clínicas sin entrenamiento específico

Generación de ADN a escala de genoma

Genome modelling and design across all domains of life with Evo 2

Evo 2 es un modelo generalista para toda la vida

Esto es muy raro y muy potente: un único modelo que entiende patrones comunes a toda la vida.

2. Lo han hecho completamente abierto

Tamaños del modelo

Hay varias versiones:
40B parámetros, contexto 1 millón → la mejor
7B parámetros, contexto 1 millón → más ligera pero muy buena
1B parámetros, contexto corto → experimental y no recomendada
El contexto de 1 millón significa que puede analizar regiones enormes del genoma de una sola vez

Seguridad, ética y riesgos

Los autores reconocen que un modelo así podría usarse mal si no se controla.Por eso tomaron medidas importantes:

a) Excluyeron virus que infectan humanos y otros eucariotas

No entrenaron al modelo con genomas de virus peligrosos.
Resultado:
El modelo no sabe generar virus humanos funcionales
si se le pide, produce secuencias aleatorias e inútiles
Esto se comprobó con pruebas de “red teaming” (intentos deliberados de forzarlo a comportarse mal).

Evaluaron sesgos poblacionales

El modelo no está centrado en una población humana concreta, así que:
no favorece ni discrimina variantes según origen genético
evita errores comunes en modelos entrenados solo con datos humanos

Evaluaron riesgos de uso indebido

Incluye:
análisis de seguridad
análisis ético
revisión por expertos de distintas disciplinas
Es uno de los esfuerzos más completos hasta ahora en modelos biológicos.

Qué se podrá hacer en el futuro

Los autores ven Evo 2 como una base, no como el final.

Podría mejorar si se combina con:

datos de variación genética de poblaciones humanas
datos experimentales que relacionan secuencia con función
técnicas de aprendizaje reforzado con retroalimentación de experimentos reales

Podría permitir:

diseñar funciones biológicas más complejas
descubrir nuevos elementos genéticos
simular cómo afectan mutaciones a la salud y la enfermedad
crear herramientas de biología sintética más potentes

Evo 2 architecture, training, and data

Discussion

¿Qué puede hacer Evo 2?

El futuro de la cardiología con modelos como Evo 2

No hay comentarios:

Datos personales

Archivo del blog

traductor

martes, 5 de mayo de 2026

Revolución en la ingeniería biomédica...Evo 2

Un modelo de IA con “memoria” genómica gigantesca

Es completamente abierto

Interpretabilidad: el modelo “entiende” biología real

Predicciones clínicas sin entrenamiento específico

Generación de ADN a escala de genoma

Genome modelling and design across all domains of life with Evo 2

Evo 2 es un modelo generalista para toda la vida

Esto es muy raro y muy potente: un único modelo que entiende patrones comunes a toda la vida.

2. Lo han hecho completamente abierto

Tamaños del modelo

Hay varias versiones:40B parámetros, contexto 1 millón → la mejor7B parámetros, contexto 1 millón → más ligera pero muy buena1B parámetros, contexto corto → experimental y no recomendadaEl contexto de 1 millón significa que puede analizar regiones enormes del genoma de una sola vez

Seguridad, ética y riesgos

Los autores reconocen que un modelo así podría usarse mal si no se controla.Por eso tomaron medidas importantes:

a) Excluyeron virus que infectan humanos y otros eucariotas

No entrenaron al modelo con genomas de virus peligrosos.Resultado:El modelo no sabe generar virus humanos funcionalessi se le pide, produce secuencias aleatorias e inútilesEsto se comprobó con pruebas de “red teaming” (intentos deliberados de forzarlo a comportarse mal).

Evaluaron sesgos poblacionales

El modelo no está centrado en una población humana concreta, así que:no favorece ni discrimina variantes según origen genéticoevita errores comunes en modelos entrenados solo con datos humanos

Evaluaron riesgos de uso indebido

Incluye:análisis de seguridadanálisis éticorevisión por expertos de distintas disciplinasEs uno de los esfuerzos más completos hasta ahora en modelos biológicos.

Qué se podrá hacer en el futuro

Los autores ven Evo 2 como una base, no como el final.

Podría mejorar si se combina con:

datos de variación genética de poblaciones humanasdatos experimentales que relacionan secuencia con funcióntécnicas de aprendizaje reforzado con retroalimentación de experimentos reales

Podría permitir:

diseñar funciones biológicas más complejasdescubrir nuevos elementos genéticossimular cómo afectan mutaciones a la salud y la enfermedadcrear herramientas de biología sintética más potentes

Evo 2 architecture, training, and data

Discussion

¿Qué puede hacer Evo 2?

El futuro de la cardiología con modelos como Evo 2

No hay comentarios:

Hay varias versiones:
40B parámetros, contexto 1 millón → la mejor
7B parámetros, contexto 1 millón → más ligera pero muy buena
1B parámetros, contexto corto → experimental y no recomendada
El contexto de 1 millón significa que puede analizar regiones enormes del genoma de una sola vez

No entrenaron al modelo con genomas de virus peligrosos.
Resultado:
El modelo no sabe generar virus humanos funcionales
si se le pide, produce secuencias aleatorias e inútiles
Esto se comprobó con pruebas de “red teaming” (intentos deliberados de forzarlo a comportarse mal).

El modelo no está centrado en una población humana concreta, así que:
no favorece ni discrimina variantes según origen genético
evita errores comunes en modelos entrenados solo con datos humanos

Incluye:
análisis de seguridad
análisis ético
revisión por expertos de distintas disciplinas
Es uno de los esfuerzos más completos hasta ahora en modelos biológicos.

datos de variación genética de poblaciones humanas
datos experimentales que relacionan secuencia con función
técnicas de aprendizaje reforzado con retroalimentación de experimentos reales

diseñar funciones biológicas más complejas
descubrir nuevos elementos genéticos
simular cómo afectan mutaciones a la salud y la enfermedad
crear herramientas de biología sintética más potentes