【導讀】這家成立三年的小初創公司,首次利用深度學習語言模型合成出了自然界中不存在的全新蛋白質,引爆蛋白質設計革命。
人工智能的應用,已經極大地加速了蛋白質工程的研究。
最近,加州伯克利的一家初出茅廬的初創公司再次取得了驚人的進步。
科學家們采用類似ChatGPT的蛋白質工程深度學習語言模型——Progen,首次實現了AI預測蛋白質的合成。
這些蛋白質不僅與已知的完全不同,相似度最低的甚至只有31.4%,但和天然蛋白一樣有效。
現在,這項工作已經正式發表于Nature子刊。
論文地址:https://www.nature.com/articles/s41587-022-01618-2
這個實驗也表明,自然語言處理雖然是為讀寫語言文本而開發的,但它也可以學習生物學的一些基本原理。
比肩諾獎的技術
對此,研究人員表示,這項新技術可能會變得比定向進化(獲得諾貝爾獎的蛋白質設計技術)更加強大。
「它將通過加快開發可用于從治療劑到降解塑料等幾乎所有用途的新蛋白質,為有50年歷史的蛋白質工程領域注入活力。」
這家公司名叫Profluent,由前Salesforce AI研究負責人創立,已獲得900萬美元的啟動資金,用于建立一個集成的濕實驗室,并招募機器學習科學家和生物學家。
以往,在自然界中挖掘蛋白質,或者調整蛋白質到所需功能,都十分費力。Profulent的目標是,讓這個過程變得毫不費力。
他們做到了。
Profluent創始人兼CEO Ali Madani
Madani在采訪中表示,Profulent已經設計出了多個家族的蛋白質。這些蛋白質的功能與樣本蛋白(exemplar proteins)一樣,因此是具有高活性的酶。
這項任務非常困難,是以zero-shot的方式完成的,這意味著并沒有進行多輪優化,甚至根本不提供濕實驗室的任何數據。
而最終設計出的蛋白質,是通常需要數百年才能進化出來的高活性蛋白質。
基于語言模型的ProGen
作為深度神經網絡的一種,條件語言模型不僅可以生成語義和語法正確且新穎多樣的自然語言文本,而且還可以利用輸入控制標簽來指導風格、主題等等。
類似的,研究人員開發出了今天的主角——ProGen,一個12億參數的條件蛋白質語言模型。
具體來說,基于Transformer架構的ProGen通過自注意機制來模擬殘基的相互作用,并且可以根據輸入控制標簽生成不同的跨蛋白質家族的人工蛋白質序列。
用條件語言模型生成人工蛋白質
為了創建這個模型,研究人員喂了2.8億種不同蛋白質的氨基酸序列,并讓它「消化」了幾周的時間。
接著,他們又用五個溶菌酶家族的56,000個序列以及關于這些蛋白質的信息,對模型進行了微調。
Progen的算法與ChatGPT背后的模型GPT3.5類似,它學習到了蛋白質中氨基酸排序的規律,以及它們與蛋白結構和功能的關系。
很快,模型就生成了一百萬個序列。
根據與天然蛋白質序列的相似程度,以及氨基酸「語法」和「語義」的自然程度,研究人員選擇了100個進行測試。
其中,有66個產生了與消滅蛋清和唾液中細菌的天然蛋白質類似的化學反應。
也就是說,這些由AI生成的新蛋白質也可以殺死細菌。
生成的人工蛋白是多樣化的,且在實驗系統中表達良好
更進一步,研究人員選擇了反應最強烈的五種蛋白質,并將它們加入到大腸桿菌的樣本中。
其中,有兩種人工酶能夠分解細菌的細胞壁。
通過與雞蛋白溶菌酶(HEWL)進行比較可以發現,它們的活性與HEWL相當。
隨后,研究人員又用X射線進行了成像。
盡管人工酶的氨基酸序列與現有的蛋白質有高達30%的差異,二者之間也只有18%是相同的,但它們的形狀卻與自然界的蛋白質相差無幾,而且功能也可以與之媲美。
條件語言建模對其他蛋白質系統的適用性
除此之外,對于高度進化的天然蛋白質來說,可能只需一個小小突變就會讓它停止工作。
但研究人員在另一輪篩選中發現,在AI生成的酶中,即使只有31.4%的序列與已知蛋白質相同,也能表現出相當的活性以及類似的結構。
蛋白質設計,進入新時代
可以看到,ProGen的工作方式與ChatGPT很類似。
ChatGPT通過學習海量數據,可以參加MBA和律師考試、撰寫大學論文。
而ProGen通過學習氨基酸如何組合成2.8億個現有蛋白質的語法,學會了如何生成新的蛋白質。
在采訪中,Madani表示,「就像ChatGPT學習英語之類的人類語言一樣,我們是在學習生物和蛋白質的語言。」
「人工設計蛋白質的性能比受進化過程啟發的蛋白質要好得多,」論文作者之一、加州大學舊金山分校藥學院生物工程和治療科學教授James Fraser說。
「語言模型正在學習進化的各個方面,但它與正常的進化過程不同。我們現在有能力調整這些特性的產生,以獲得特定效果。比如,讓一種酶具有令人難以置信的熱穩定性,或嗜好酸性環境,或者不會與其他蛋白質相互作用?!?/p>
早在2020年,Salesforce Research就開發了ProGen。它基于的自然語言編程,最初用于生成英語文本。
從之前的工作中,研究者們了解到,人工智能系統可以自學語法和單詞的含義,以及其他使寫作井井有條的基本規則。
「當你用大量數據訓練基于序列的模型時,它們在學習結構和規則上的表現非常強大,」Salesforce Research人工智能研究總監、論文的資深作者Nikhil Naik博士說,「它們會了解哪些詞可以同時出現,該怎樣組合?!?/p>
「現在,我們已經證明了ProGen有能力生成新的蛋白質,并進行了公開發布,所有人都可以在我們的基礎上進行研究。」
作為蛋白質的溶菌酶雖然非常小,最多有約300個氨基酸。
但是有20種可能的氨基酸,就有20^300種可能的組合。
這比古往今來的所有人類,乘以地球上沙粒的數量,再乘以宇宙中的原子數量的積還要多。
考慮到這近乎無限的可能性,Progen能夠如此輕松地設計出有效的酶,確實很了不起。
Profluent Bio創始人、Salesforce Research前研究科學家Ali Madani博士說:「開箱即用地從頭開始生成功能性蛋白質的能力,表明我們正在進入蛋白質設計的新時代。」
「這是所有蛋白質工程師都可以使用的多功能新工具,我們期待看到它被應用于治療。」
與此同時,研究人員仍在繼續改進ProGen,試圖突破更多的限制和挑戰。
其中之一便它非常地依賴數據。
「我們已經探索了通過加入基于結構的信息來改善序列的設計,」Naik說,「我們還在研究當你沒有太多關于某個特定蛋白質家族或領域的數據時,如何提高模型的生成能力?!?/p>
值得注意的是,還有一些初創公司也在嘗試相似的技術,比如Cradle,以及自生物技術孵化器Flagship Pioneering的Generate Biomedicines,不過這些研究都還未經過同行評審。