AlphaFold又更新迭代!第三代比之前厲害在哪裏?
來源:科普中國
發布時間:2024-05-20
瀏覽次數:1133

版權歸原作者所有,如有侵權,請聯係我們(men)

導讀:5月9日,AlphaFold 3重磅問世,準確性遠超以往水平。在很多學者看來,這相當於(yu) 給他們(men) “戴上一副高清眼鏡”,對生物分子係統結構進行更準確的預測。

此次發布的AlphaFold 3能預測蛋白質與(yu) 其他蛋白質、核酸、小分子、離子、修飾蛋白質殘基的複合物,以及抗體(ti) -抗原的相互作用,準確性顯著超過當前的預測工具。

我們(men) 第一時間聯係深圳灣實驗室係統與(yu) 物理生物學研究所副所長、資深研究員周耀旗老師,早在去年11月,周耀旗通過對Deepmind與(yu) Isomorphic Labs 共同發布了的新聞稿對新一代AlphaFold模型:

AlphaFold3進行評論,他指出“AlphaFold3改變了以前AlphaFold2隻能用於(yu) 蛋白質結構預測的局限性,而使它能夠預測跟其它分子的複合物結構,包括小分子配體(ti) 、多肽、多糖、蛋白質、核酸(DNA 和 RNA)以及含有翻譯後修飾(PTM)的生物分子,可以說是包羅萬(wan) 象了。”可以說,提早就預判了AlphaFfold3的主要特點。

今天,周耀旗老師將為(wei) 我們(men) 解答AlphaFold3究竟厲害在哪裏?

葉水送 | 采訪

周耀旗(深圳灣實驗室)| 嘉賓

為(wei) 什麽(me) 蛋白質結構預測很重要?

問:為(wei) 什麽(me) 蛋白質結構預測很重要?

周耀旗:我們(men) 生命體(ti) 係的存在和發展主要靠幾類重要的生物大分子的協同相互作用。其中一條重要中心法則是包含遺傳(chuan) 信息的DNA分子,通過RNA分子,翻譯生成蛋白質分子。蛋白質分子是一個(ge) 幾乎全能的分子機器,有記錄在案的就有一萬(wan) 多種功能,包括分子馬達、結構支持、信號傳(chuan) 遞、運輸、加速生命必需化學反應、以及抵抗病毒、細菌侵入的抗體(ti) 等等。

從(cong) 化學組成來講,蛋白質是一個(ge) 非常簡單的線性高分子,由20個(ge) 氨基酸排列組合而成,不同氨基酸排列就構成了不同功能的蛋白質。這跟我們(men) 的英語單詞很相似,每個(ge) 字是20個(ge) 字母所組成,不同數量字母的組合,形成不同意義(yi) 的單詞。

跟英語單詞不一樣的地方是,蛋白質之所以能夠具有各種各樣的功能,是因為(wei) 多數蛋白質能夠自己折疊成一個(ge) 穩定的、獨特的三維結構來執行它的功能。譬如有的蛋白質在細胞膜內(nei) 能夠形成一個(ge) 通道,控製某些分子在細胞內(nei) 部的進進出出。因此知道蛋白質所形成的結構形狀就可以知道蛋白質這個(ge) 分子機器是幹什麽(me) 的,怎麽(me) 工作的。知道蛋白質怎麽(me) 工作非常重要,因為(wei) 人類的大多數疾病是由於(yu) 一個(ge) 或者一些蛋白質出了問題,把這些出了問題的蛋白質關(guan) 掉是治病的手段之一。因此,高精度的蛋白質結構是藥物設計的一個(ge) 重要組成部分。

長期以來,蛋白質所形成的結構主要靠非常昂貴的儀(yi) 器,非常耗時耗人工的實驗方法來解析,主要的儀(yi) 器是核磁共振,X射線晶體(ti) 衍射,冷凍電鏡。60年來,也才解析了20萬(wan) 個(ge) 蛋白質,是已知蛋白質數目的千分之一,所以全部用實驗手段來解析所有的蛋白質結構,無論是金錢上還是時間上都是不現實的, 因此,計算生物學家一直在努力發展計算方法來預測蛋白質結構,促進我們(men) 對生命機製的理解和疾病的藥物開發。

回顧AlphaFold發展曆程

問:自2020年11月AlphaFold問世,現在已更新至第三代,每一次都令人驚豔,它是如何一步步發展過來的?每一代都有哪些特色?您能否簡單回顧下

周耀旗:AlphaFold的第一次問世是2018年,它參加了每兩(liang) 年一度的第13屆蛋白質結構雙盲預測比賽,所謂雙盲就是計算生物學家進行結構預測的時候,大家都不知道結構是長什麽(me) 樣的,因為(wei) 測定這些結構的實驗還沒有公布。而在實驗結構出來之後,評估預測結構的準確性的科學家也不知道是那個(ge) 計算生物學家做的預測,可以避免主觀的因素。

從(cong) 1996年第二屆比賽開始,到2016年的22年,進展非常慢,特別是對那些難度大,沒有已知結構來作為(wei) 模板的從(cong) 頭預測方法, 100分滿分,預測結構的分數22年才從(cong) 27分進展到32分左右,要想達到85分以上的實驗精確度,估計還要200多年。

AlphaFold的2018年第一次問世把分數提到了>60及格以上,而2020年問世AlphaFold2一下子提到了85分,優(you) 秀。第一代的AlphaFold解的是一個(ge) 1+2=3的問題,用神經網絡來預測一維主鏈的二麵角走向,以及二維的主鏈原子間的接觸距離,然後把預測的一維角度概率和二維距離概率轉化成蛋白質的能量函數,對該蛋白的3維結構進行能量最小化的優(you) 化。第二代的AlphaFold解的也是一個(ge) 1+2=3的問題,不同的是它完全避開了能量函數,把整個(ge) 體(ti) 係搬到的神經網絡裏麵,進行了所謂的端-到-端的訓練和預測,通過蛋白質序列和結構的大數據,以及高達9千萬(wan) 參數的大模型,實現了蛋白質結構的高精度預測的飛躍。

AlphaFold 3有哪些優(you) 勢和短板?

問:第三代和之前有何不同?有哪些新突破,還有何待發展之處?

周耀旗:剛剛問世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限於(yu) 單個(ge) 蛋白質結構的預測,而是努力成為(wei) 一個(ge) 通用模型,可以用於(yu) 蛋白質與(yu) 其他分子相互作用複合物結構的預測,包括蛋白質的修飾,DNA分子,RNA分子,以及各種各樣的小分子。

除了應用能力的擴展,它在計算方法上也有創新。把第二代AlphaFold中的進化模塊改成效率更高的成對模塊,把第二代AlphaFold中的結構模塊變成直接產(chan) 生三維坐標的擴散模塊,大幅度降低了計算的複雜度。

這個(ge) 方法主要在蛋白質-小分子配體(ti) ,蛋白質-蛋白質,抗體(ti) -抗原結構,蛋白質- RNA/DNA複合物結構上比當前最好方法前進了一大步,在蛋白質修飾後的結構預測實現了0到1的突破。但在RNA結構預測方麵,還不如基於(yu) 我們(men) BRiQ能量函數的AIchemy-RNA2方法。此外,在蛋白質單體(ti) 結構預測上也沒有新的突破,還是嚴(yan) 重依賴於(yu) 同源序列的多少和質量。

人工智能在研究領域還有哪些應用?

問:AI for Science的概念這兩(liang) 年被反複提及,人工智能在研究領域(以生物醫學為(wei) 主)還有哪些應用?

周耀旗:除了剛剛所說的AlphaFold在分子結構預測這個(ge) 的基礎研究以及它對新藥物開發設計這方麵的應用之外,人工智能也將徹底改變了生物醫學其他的方方麵麵。幾個(ge) 明顯的例子是:

首先,醫學影像分析:人工智能將用於(yu) 分析醫學影像,如X射線、MRI、CT掃描和組織病理學切片。

其次,個(ge) 性化醫學:人工智能算法分析病人數據,包括遺傳(chuan) 信息、病史和生活方式因素,能夠識別疾病風險因素、預測疾病進展,為(wei) 病人製定個(ge) 體(ti) 化治療方案,將改善治療效果並減少不良反應。

還有,虛擬健康助手和聊天機器人:人工智能驅動的聊天機器人和虛擬健康助手為(wei) 病人提供個(ge) 性化的健康建議、症狀評估、用藥提醒和隨時隨地獲取醫療信息。

此外,還有健康監測與(yu) 可穿戴設備,電子健康記錄的數據挖掘,醫療機器人和手術等等。這些隻是人工智能如何改變生物醫學領域的一些例子,不斷進行的研究和創新將帶來新的應用和進展,這僅(jin) 僅(jin) 是開始,未來將有全方位的顛覆性變化。

與(yu) ChatGPT、Sora有何異同點?

問:alphafold 3也用到生成式AI,和現在被熱議的chatgpt、sora等,它們(men) 有什麽(me) 異同點?

周耀旗:在alphafold 3和Sora一樣,都是利用擴散模型架構來進行結構或者視頻的生成。擴散模型架構從(cong) 隨機噪聲開始,逐步對其進行細化以生成最終結果。 而語言模型ChatGPT基於(yu) Transformer 架構,這是一種已經成為(wei) 大型語言模型標準的深度學習(xi) 架構。

本文為(wei) 科普中國·星空計劃扶持作品

團隊/作者:深究科學

審核:陶寧 中國科學院生物物理研究所副研究員

葉盛 北京航天航空大學 研究員

出品:中國科協科普部

監製:中國科學技術出版社有限公司、北京中科星河文化傳(chuan) 媒有限公司

歡迎掃碼關(guan) 注深i科普!

我們(men) 將定期推出

公益、免費、優(you) 惠的科普活動和科普好物!


聽說,打賞我的人最後都找到了真愛。
做科普,我們是認真的!
掃描關注深i科普公眾號
加入科普活動群
  • 參加最新科普活動
  • 認識科普小朋友
  • 成為科學小記者