En un informe de finales de 2025, destacamos un sistema de IA revolucionario llamado Evo, que fue entrenado eficientemente en un gran número de genomas bacterianos. La capacidad de Evo para predecir genes subsecuentes o sugerir proteínas completamente nuevas fue facilitada por la agrupación natural de genes relacionados en genomas bacterianos. Sin embargo, este método enfrentaba limitaciones con organismos que poseen marcos genómicos más intrincados, como aquellos con células complejas, lo que llevó a nuestra cobertura a señalar la incertidumbre de que este enfoque funcionara con genomas más complejos.
No obstante, el equipo de Evo asumió este desafío, y hoy, han presentado Evo 2, una IA de código abierto entrenada en genomas de los tres dominios de la vida: bacterias, arqueas y eucariotas. Al analizar trillones de pares de bases de ADN, Evo 2 ha desarrollado representaciones internas sofisticadas de características cruciales dentro de genomas complejos, incluyendo ADN regulador y sitios de corte, que a menudo representan desafíos significativos para los analistas humanos.
Características del Genoma
Los genomas bacterianos están organizados con relativa simplicidad. Los genes que codifican proteínas o ARN siguen secuencias contiguas sin interrupciones, y aquellos involucrados en funciones similares, como el metabolismo del azúcar o la producción de aminoácidos, tienden a agruparse bajo un sistema regulador singular y compacto, una disposición marcada por una eficiencia sencilla.
En contraste, los genomas eucariotas se caracterizan por secuencias de codificación interrumpidas debido a la presencia de intrones, que no contribuyen con información de codificación. La regulación en estos organismos es manejada por secuencias que pueden estar dispersas a través de cientos de miles de pares de bases. Además, las secuencias identificadoras para intrones o sitios de unión de proteínas reguladoras no están bien definidas; mientras que algunas bases son críticas, muchas solo tienen una probabilidad ligeramente mayor (e.g., 'el 45 por ciento del tiempo, es una T'). En la mayoría de los genomas eucariotas, esta complejidad se ve agravada por una cantidad significativa de lo que se llama 'ADN basura', incluyendo virus inactivos y genes irreparablemente dañados.