科學探索:每解析一個蛋白質結構,就會有一種疾病“消失”?
發布時間:2021-04-14
瀏覽次數:1352
科學探索:每解析一個蛋白質結構,就會有一種疾病“消失”?

什麽是生物計算?

 

如果有一位科學家跟你說,他是做蛋白質結構研究的,我想絕大多數人腦海中會(hui) 浮現出這樣的景象:他穿著白大褂,聚精會(hui) 神地坐在顯微鏡前觀察。這似乎已經成了生物化學家的標準形象。然而有一天你去他辦公室,卻發現根本看不到顯微鏡和試管,隻看到他穿著寬大舒服的便裝,在電腦上劈裏啪啦地敲代碼,這個(ge) 景象必然會(hui) 讓很多人大吃一驚。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

實際上,準確地說,這位科學家是一位生物計算學家(或計算生物學家)。他的研究對象的確是像蛋白質或者 DNA 這樣微小的生物活性物質,但他和傳(chuan) 統的生物化學家不同的是,他的研究工具不是試管和顯微鏡,而是——計算機。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

很多人在初次看到類似“某某公司進軍(jun) 生物計算”這樣的新聞標題時,往往會(hui) 產(chan) 生強烈的不明覺厲的感覺。甚至有人以為(wei) 是該公司要用生物活性物質來製造計算機,就像科幻電影中出現的那種插滿電極的一攤軟乎乎的腦組織。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

這真是一個(ge) 天大的誤會(hui) 。這些新聞其實說的是:某公司要設計一種 AI 算法,它能夠根據有限的蛋白質信息,準確地繪製出蛋白質的三維結構。打個(ge) 形象的比喻,這家公司相當於(yu) 要幫助警察設計一個(ge) 程序,它能根據受害人的描述,準確地繪製出凶手的外貌。

 

繪製出某個(ge) 蛋白質的三維結構對於(yu) 新藥研發,例如新冠病毒的疫苗研發有著極其重大的意義(yi) 。但是,這個(ge) 問題也極為(wei) 困難,它是當今人類科學麵臨(lin) 的幾個(ge) 至關(guan) 重要的挑戰之一。想要知道它難在哪裏,又為(wei) 什麽(me) 意義(yi) 重大,往下看。

 

蛋白質折疊問題

 

蛋白質從(cong) 微觀上來說,就是一團有機大分子。它是構成生命的基本零件,每一種蛋白質都有一個(ge) 特定的三維結構,但這種三維結構有一個(ge) 特殊之處:它一定是由一根長長的鏈條折疊而成的。要理解蛋白質的三維結構到底是怎樣的,你隻需要去玩一種叫“百變魔尺”的兒(er) 童玩具,就能馬上理解。百變魔尺是一節一節的,每一節都可以做各個(ge) 角度的翻轉。因此,你可以把一根長長的魔尺折疊成各種各樣的形狀,魔尺的節數越多,能夠折疊出的形狀數量就會(hui) 呈指數級的增長。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

組成蛋白質的基本單元是氨基酸,它就像魔尺的一個(ge) “節”。蛋白質剛剛生成時,就像一根長長的幾十到幾百節的魔尺。然後,它會(hui) 在幾微秒到幾毫秒的時間內(nei) ,迅速地折疊成一個(ge) 特定的形狀。因此,在電子顯微鏡中,每一個(ge) 蛋白質就像是一團亂(luan) 麻。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

因此,決(jue) 定一個(ge) 蛋白質性狀和功能的,就是構成蛋白質的氨基酸序列和蛋白質最終折疊成的形狀。比如,我們(men) 的免疫係統在麵對病毒和細菌入侵時,就會(hui) 產(chan) 生一種“Y”字形的抗體(ti) 蛋白。它們(men) 的形狀就像是一個(ge) 抓娃娃機的夾子,能夠精確瞄準並夾住這些入侵者。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

正在瞄準和識別病毒的抗體(ti)

 

我們(men) 的韌帶、骨骼和皮膚之間有大量的膠原蛋白。它們(men) 的形狀就像是由三根粗繩擰成的麻花,為(wei) 我們(men) 的皮膚提供張力,使其顯得有彈性。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

麻花狀的膠原蛋白

再比如,2020 年獲得諾獎的基因定點編輯技術 CRISPR,也正是利用了一個(ge) 長得像螃蟹鉗子的 CAS9 蛋白。它會(hui) “緊緊地夾住”基因組中某段特定的 DNA,從(cong) 而進行剪切。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

因此,科學家們(men) 對蛋白質最感興(xing) 趣的是 2 個(ge) 信息:一個(ge) 是蛋白質的氨基酸序列,你可以想象成魔尺的那些“節”;另一個(ge) 則是蛋白質的結構,也就是魔尺折疊後的形狀。

 

序列信息相對容易獲得,但結構信息卻極難獲得。偏偏結構信息又更重要,因為(wei) 知道了一個(ge) 未知蛋白質的結構,就可以更準確地理解它在細胞中的作用。如果這個(ge) 蛋白質與(yu) 某種疾病相聯係,那麽(me) 科學家們(men) 就能根據它的結構形狀,開發出相應的藥物。

 

1972 年,諾貝爾化學獎獲得者克裏斯蒂安·安芬森提出了一個(ge) 假說:其實我們(men) 隻需要知道一個(ge) 信息就足夠了。因為(wei) 他在實驗中發現,一個(ge) 蛋白質隻要序列不發生改變,並且一直處於(yu) 同一個(ge) 化學環境中,那麽(me) 它每次都能折疊成一樣的三維結構。所以,蛋白質在三維空間中該如何折疊,這些信息其實已經包含在了它的氨基酸序列中。換句話說,如果我們(men) 知道了一個(ge) 蛋白質的氨基酸序列,理論上我們(men) 就應該能推測出它的三維結構。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

安芬森的這個(ge) 假說得到了全世界同行的認可。然而科學家們(men) 很快就發現,好像知道了這個(ge) 理論也沒什麽(me) 用。用一句網絡流行語來說——然並卵。雖然我們(men) 能在實驗室中相對容易地測出一個(ge) 蛋白質的氨基酸序列,但拿到這個(ge) 序列,我們(men) 依然無法根據某條物理法則準確推測出它的三維結構。對此,科學家們(men) 已經研究了將近 50 年,直到今天也沒有徹底弄清楚蛋白質折疊的規律。這個(ge) 問題在生物化學界被稱為(wei) “蛋白質折疊問題”,它是 21 世紀人類科學麵臨(lin) 的幾大挑戰之一。

 

燒錢的產業

 

現在的科學家想要弄清楚一個(ge) 蛋白質的三維結構,唯一的辦法隻能是耗費巨大的人力、物力,用極其笨拙的方法,通過大量的重複性實驗來找到蛋白質的三維結構。需要的實驗設備如冷凍電鏡、X 射線晶體(ti) 衍射儀(yi) 、核磁共振儀(yi) 等都價(jia) 格昂貴。例如一台冷凍電鏡的價(jia) 格就高達數百萬(wan) 至幾千萬(wan) 人民幣。解析結構的過程是否順利有很大的運氣成分。運氣不好的時候,重複個(ge) 上千次實驗都有可能出不來結果。因此,每解析一個(ge) 蛋白質結構,通常的成本在幾萬(wan) 到幾十萬(wan) 美元之間。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

從(cong) 上世紀末開始,以 IBM 為(wei) 首的一些計算機技術公司就提出了一個(ge) 大膽的設想:可以通過蛋白質的氨基酸序列,利用超級計算機來預測蛋白質的三維結構。這相當於(yu) 把原先在試管中進行的實驗,轉移到電腦的數字空間中進行。這個(ge) 想法在當時非常大膽和前衛,因為(wei) 它的運算量對於(yu) 當時的計算機來說是天文數字。

 

你可能好奇:預測一個(ge) 蛋白質的折疊,怎麽(me) 會(hui) 需要海量的計算?粗略地說,計算過程就好像在彩票箱中摸獎。一個(ge) 擁有 100 個(ge) 氨基酸的蛋白質,你想象成是一個(ge) 擁有 100 節的魔尺,它共可以產(chan) 生約 10^94 次方種不同的形狀。這個(ge) 數量已經遠遠超過了整個(ge) 宇宙中基本粒子的數量。計算機要做的事情其實就是排除法。根據一定的規則,先是一批批排除某類絕對不可能的結構,然後再根據蛋白質表現出來的性狀一個(ge) 一個(ge) 地排除。到了最後階段就像是不停地在一個(ge) 巨大的彩票箱中抽獎,每抽一次都要耗費巨大的運算量。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

IBM 用了 5 年的時間搞研發,終於(yu) 在 2004 年宣布:世界上最大的超級電腦“藍色基因”(Blue Gene)問世。它的主要目標就是解決(jue) 蛋白質折疊問題。然而,事情進展得並不像計算機專(zhuan) 家們(men) 估計的那樣樂(le) 觀。10 年之後,藍色基因升級了三代,超級計算機也沒能取代試管、X 射線晶體(ti) 衍射和核磁共振。IBM 也遺憾地終止了藍色基因係列的開發[1]。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

不過,IBM 的失敗並不代表計算機模擬蛋白質結構的失敗。恰恰相反,在 IBM 的帶動下,參與(yu) 這項挑戰的團隊越來越多,成果也越來越豐(feng) 富。各種各樣奇妙的解題思路層出不窮,最好玩的例子是華盛頓大學的大衛·貝克(Davided Baker)教授的發明。

 

2008 年,他的團隊開發出了一款名叫“Foldit”的解謎遊戲。而這款解謎遊戲的內(nei) 容就是讓用戶憑借自己的直覺來折疊蛋白質,然後根據一定的規則獲得分數。結果非常喜人,一個(ge) 困擾了生物學家 15 年之久的猴類艾滋病毒相關(guan) 蛋白,作為(wei) 謎題被上傳(chuan) 到遊戲後,玩家們(men) 隻用了 10 天就成功地破解了它最可能的折疊方式。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

猴類艾滋病毒相關(guan) 蛋白

 

從(cong) 1994 年開始,就誕生了一個(ge) 名叫 CASP 的國際蛋白質結構預測競賽。每兩(liang) 年舉(ju) 辦一次,參賽隊伍越來越多,全球的科技大佬雲(yun) 集。這個(ge) 競賽中,裁判會(hui) 給每個(ge) 小組預測的結構進行打分,滿分 100 分。在 2020 年 12 月結束的第 14 屆競賽中,傳(chuan) 來一個(ge) 令人震驚的消息:曾經開發出著名的圍棋程序 AlphaGo 的穀歌公司人工智能團隊,他們(men) 開發的 AlphaFold 程序獲得冠軍(jun) ,得到了 92.4 分。而上一屆同樣是冠軍(jun) 的它,得分還不到 60 分,這種進步的速度太令人震驚了。AlphaFold 預測的蛋白質結構已經非常接近於(yu) 真實實驗做出來的結果,人類離計算機攻克蛋白質折疊問題隻有一步之遙。

 

每解析一個蛋白質結構,就會有一種疾病“消失”?生物計算有多強

 

 

中國理應入場

 

到此你對“生物計算”應該已經有了一個(ge) 初步的概念。不知道你發現沒,前文講了這麽(me) 多,居然沒有一次提到中國。具有如此重要意義(yi) 的一項科學事業(ye) ,過去的幾十年基本上都是老外在玩兒(er) ,沒我們(men) 中國人什麽(me) 事,這真的讓我感到揪心。對於(yu) 未來的新藥研發、疫苗研發、精準醫療等等生物醫學技術,我幾乎可以肯定地說:得生物計算者得天下。傳(chuan) 統的試管加電鏡式的研發模式,終將被 AI 所取代。這項科學研究事業(ye) ,理應上升到國家戰略的高度。

 

信源

1.https://en.wikipedia.org/wiki/IBM_Blue_Gene


關(guan) 注【深圳科普】微信公眾(zhong) 號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書(shu) 籍】,了解最新科普書(shu) 籍
回複【團體(ti) 定製】,了解最新團體(ti) 定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習(xi) 觀鳥相關(guan) 科普星空体育官网入口网站
回複【博物學院】,了解更多博物學院活動詳情
 

聽說,打賞我的人最後都找到了真愛。
做科普,我們是認真的!
掃描關注深i科普公眾號
加入科普活動群
  • 參加最新科普活動
  • 認識科普小朋友
  • 成為科學小記者