在 2025 年底的一份報告中,我們強調了一個名為 Evo 的突破性 AI 系統,它在大量細菌基因組上進行了有效訓練。Evo 的能力得益於細菌基因組中相關基因的自然聚集,能夠預測後續的基因或建議全新的蛋白質。然而,這一方法在具有復雜細胞的生物體中面臨限制,因為它們具有更複雜的基因組框架,這使得我們的報導指出該方法在更複雜基因組中的不確定性。
然而,Evo 團隊迎接了這一挑戰,今天,他們展示了 Evo 2,這是一款在所有三大生命領域(細菌、古菌和真核生物)的基因組上訓練的開源 AI。通過分析數萬億個 DNA 碱基對,Evo 2 開發了複雜基因組中的關鍵特徵(包括調控 DNA 和剪接位點)的複雜內部表徵,這常常對人類分析師構成重大挑戰。
基因組特徵
細菌基因組的結構相對簡單。編碼蛋白質或 RNA 的基因遵循連續序列且沒有中斷,那些參與類似功能的基因,比如糖代謝或氨基酸生產,往往在單一、緊湊的調控系統下聚集在一起,這種安排以直接的效率為標誌。
相比之下,真核基因組因存在內含子而導致編碼序列中斷,內含子不提供任何編碼信息。在這些生物體中,通過可能分散在數十萬碱基對的序列進行調控。此外,內含子或調控蛋白結合位點的識別序列不明確;儘管一些碱基是關鍵的,但許多僅具有略高的可能性(例如,「45% 的概率是一個 T」)。在大多數真核基因組中,這種複雜性因所謂的「垃圾」DNA(包括非活性病毒和不可修復的損壞基因)的大量存在而加劇。