-病毒會“逃跑” “語言”露馬腳——新模型能學習病毒序列識別疫苗有效目標
作者:唐鳳
發布時間:2021-01-18
瀏覽次數:1285
-病毒會“逃跑” “語言”露馬腳——新模型能學習病毒序列識別疫苗有效目標

快速的變異使一些病毒能夠避開特定疫苗產(chan) 生的抗體(ti) 。圖片來源:MIT

病毒可能比人們(men) 想象得更狡猾,它能不斷偽(wei) 裝自己,逃避“疫苗獵人”的追捕。

一直以來,研製對抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困難,原因之一是這些病毒的變異非常迅速。這使得它們(men) 可以通過一種被稱為(wei) 病毒逃逸的過程,避開特定疫苗產(chan) 生的抗體(ti) 。

美國麻省理工學院研究人員現在設計了一種計算病毒逃逸的新模型。該模型基於(yu) 最初用來分析語言的模型,可以預測病毒表麵蛋白的哪些部分更容易發生突變,從(cong) 而使病毒能夠逃逸,也可以識別出不太可能發生突變的部分,使它們(men) 成為(wei) 新疫苗的良好靶標。

“病毒逃逸是個(ge) 大問題。”麻省理工學院計算機科學與(yu) 人工智能實驗室教授Bonnie Berger說,“流感病毒表麵蛋白和HIV病毒包膜表麵蛋白的病毒逃逸是造成目前沒有通用疫苗的主要原因。這兩(liang) 種疾病每年都會(hui) 導致數十萬(wan) 人死亡。”

在1月15日發表在《科學》上的一項研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標。研究人員還將該模型用於(yu) 研究最近在英國和南非出現的新冠病毒新變種。研究人員說,尚未經過同行評審的相關(guan) 分析發現,這些病毒的基因序列應該被進一步調查,以確定它們(men) 是否有可能逃脫現有疫苗的影響。

病毒也有語言

不同類型的病毒以不同的速度發生基因突變,HIV和流感是突變最快的病毒之一。

“HIV和流感病毒突變得很快,這是它們(men) 複製生物學的結果。例如,HIV和流感遺傳(chuan) 物質複製的機製容易出錯,從(cong) 而導致突變。”該研究通訊作者、麻省理工學院生物工程助理教授Bryan Bryson在接受《中國科學報》記者采訪時表示。

為(wei) 了讓這些突變促進病毒逃逸,它們(men) 必須幫助病毒改變其表麵蛋白質的形狀,這樣抗體(ti) 就不能再與(yu) 它們(men) 結合。然而,這種蛋白質不會(hui) 發生使其失去功能的變化。

Berger、Bryson以及研究生Brian Hie等人,決(jue) 定使用一種被稱為(wei) 語言模型的計算模型對這些標準進行建模。這種模型來自自然語言處理(NLP)領域,最初被設計用來分析語言模式,特別是某些單詞同時出現的頻率。然後,這些模型就可以預測哪些單詞可以用來完成一個(ge) 句子,比如要補全“薩莉在()中吃了雞蛋”,NLP模型可能預測“早餐”或“午餐”。

“我們(men) 對NLP語言模型的最新進展感到興(xing) 奮,這些模型可以通過訓練原始文本來理解人類語言。於(yu) 是,我們(men) 認為(wei) ,由於(yu) 病毒最豐(feng) 富的數據隻是原始的病毒序列,我們(men) 也可以通過訓練語言模型從(cong) 病毒序列數據集中學習(xi) 非常複雜的模式。”Bryson說。

當這種模型應用於(yu) 生物信息,如基因序列時,語法類似於(yu) 確定特定序列編碼的蛋白質是否具有功能的規則,語義(yi) 意義(yi) 類似於(yu) 蛋白質是否能夠呈現新的形狀,幫助它逃避抗體(ti) 。因此,使病毒能夠逃脫的突變必須保持序列的語法性,但同時能以一種有用的方式改變蛋白質的結構。

用序列訓練模型

“如果病毒想要逃離人類的免疫係統,又不想讓自己因突變而死亡或無法複製,換句話說,它既想保持健康,又想充分偽(wei) 裝自己,以便不會(hui) 被人體(ti) 免疫係統檢測到。”Hie說。

為(wei) 了模擬這一過程,研究人員訓練了一個(ge) NLP模型來分析基因序列中的模式,該模型可以預測具有新功能但仍遵循蛋白質結構生物學規則的新序列。這種建模的一個(ge) 顯著優(you) 點是它隻需要序列信息,這比獲得蛋白質結構容易得多。

此外,該模型可以在相對少量的信息上進行訓練——在這項研究中,研究人員使用了6萬(wan) 條HIV序列、4.5萬(wan) 條流感序列和4000條冠狀病毒序列。

“語言模型非常強大,因為(wei) 它們(men) 可以學習(xi) 這個(ge) 複雜的分布結構,並從(cong) 序列變化中獲得一些對功能的洞見。”Hie告訴記者,“我們(men) 在每個(ge) 氨基酸位置都有大量的病毒序列數據,模型通過訓練數據學習(xi) 氨基酸共現和共變的這些特性。”

一旦該模型被訓練,研究人員能使用它來預測冠狀病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列變化,這些蛋白或多或少可能產(chan) 生逃逸突變。

“發現看似不相關(guan) 的科學分支之間的聯係,可能會(hui) 發展出來加速一個(ge) 分支研究的新方法。該研究提供了一個(ge) 此類聯係的示例。作者們(men) 發現了病毒與(yu) 自然語言之間的相似之處,進而提出了一種識別突變的強大新方法,這種突變可以使病毒通過中和抗體(ti) 而逃脫識別。”未參與(yu) 該研究的美國國家醫學圖書(shu) 館Teresa M. Przytycka等人在相關(guan) 評論文章中指出。

知己知彼 阻斷逃逸

對於(yu) 流感,該模型揭示了最不可能發生突變和產(chan) 生病毒逃逸的序列是在HA蛋白的莖部。這與(yu) 最近的研究一致,研究表明,針對HA莖部的抗體(ti) 可以提供幾乎全麵的保護,以對抗任何流感毒株。

在對HIV的研究中,研究人員發現,該蛋白的V1-V2高變區域有許多可能的逃逸突變,這與(yu) 之前的研究結果一致,他們(men) 還發現了逃逸概率較低的序列。

該模型對冠狀病毒的分析表明,被稱為(wei) S2亞(ya) 基的刺突蛋白的一部分最不可能產(chan) 生逃逸突變。但新冠病毒變異的速度仍是一個(ge) 問題,因此目前部署的抗擊新冠肺炎大流行的疫苗將在多長時間內(nei) 保持有效尚不清楚。

“目前,對於(yu) 新冠病毒,我們(men) 認為(wei) 我們(men) 的模型可以迅速標記出與(yu) 以前看到的病毒序列有本質區別的新序列,以便在實驗室進行進一步測試。” Berger告訴《中國科學報》,“你可以想象,模型能檢查每一個(ge) 新序列,而改變超過一定閾值的序列就需要在實驗室中進行進一步研究。”

初步證據表明,這種病毒的變異速度不像流感或HIV那麽(me) 快。然而,研究人員最近發現了新加坡、南非和馬來西亞(ya) 出現的新突變,他們(men) 認為(wei) 應該對潛在的病毒逃逸進行調查。

研究人員認為(wei) ,我們(men) 麵臨(lin) 的問題仍然是新冠病毒的變異速度有多快。

“該病毒種類繁多,控製其複製的生物機製因人而異,所以盡管它們(men) 有共同的特征,人們(men) 仍需要對每種病毒進行專(zhuan) 門研究,以了解它們(men) 的突變率。”Bryson說,“我們(men) 最好的見解將來自於(yu) 動物感染模型,其中完整的免疫反應是存在的,因此我們(men) 可以理解總的免疫壓力是如何影響病毒突變率的。之後,我們(men) 需要對新冠病毒感染者的病毒進行測序,以識別感染這些人的病毒中存在的突變。”

此外,研究人員現在正與(yu) 其他人合作,利用他們(men) 的模型確定癌症疫苗的可能目標,從(cong) 而刺激人體(ti) 自身免疫係統摧毀腫瘤。他們(men) 說,它還可以用於(yu) 設計小分子藥物,這種藥物可能不太可能引發結核病等疾病的耐藥性。

相關(guan) 論文信息:https://doi.org/10.1126/science.abd7331

https://doi.org/10.1126/science.abf6894



關(guan) 注【深圳科普】微信公眾(zhong) 號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書(shu) 籍】,了解最新科普書(shu) 籍
回複【團體(ti) 定製】,了解最新團體(ti) 定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習(xi) 觀鳥相關(guan) 科普星空体育官网入口网站

聽說,打賞我的人最後都找到了真愛。