“要么換行業(yè),要么擁抱人工智能?!边@是互聯(lián)網(wǎng)企業(yè)員工的感慨嗎?不,這是一位科學(xué)家的啟悟。
2020年蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2橫空出世,上海交通大學(xué)物理與天文學(xué)院、自然科學(xué)研究院教授洪亮大受震撼。彼時(shí)他是計(jì)算化學(xué)領(lǐng)域的專家,志在借助各類裝置“看清”蛋白質(zhì)的結(jié)構(gòu),并用傳統(tǒng)計(jì)算方法解釋其結(jié)構(gòu)特點(diǎn)。AlphaFold2顛覆了這一切——它能廣泛預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),準(zhǔn)確程度不亞于真實(shí)實(shí)驗(yàn)所獲。
不出所料,AlphaFold的開發(fā)者德米斯·哈薩比斯和約翰·江珀在2024年斬獲諾貝爾化學(xué)獎(jiǎng),與他們一起獲獎(jiǎng)的戴維·貝克同樣是借人工智能“破譯了蛋白質(zhì)的密碼”。
到此,您或許還覺得這些都只是象牙塔里的事。不過,接下來將帶給您一點(diǎn)點(diǎn)震撼:尋常如食品、寶貴如藥物、高價(jià)值如醫(yī)美產(chǎn)品、產(chǎn)業(yè)化如工業(yè)用酶……都已開始領(lǐng)略人工智能的力量。而且,不僅僅是預(yù)測(cè),AI已經(jīng)開始改造這個(gè)蛋白質(zhì)支撐起的廣大世界。
改造蛋白質(zhì)的浪潮已來
人類生活離不開蛋白質(zhì),這一點(diǎn)不懂生物學(xué)也能了解。但是,人類社會(huì)的需求越來越多樣,要求越來越高端,天然蛋白質(zhì)未必能滿足我們,科學(xué)家就開始考慮改造蛋白質(zhì)了。
但是,這談何容易!
傳統(tǒng)方法改造蛋白質(zhì)主要是依靠專家經(jīng)驗(yàn)和高通量實(shí)驗(yàn)篩選,一般需要2至5年的研發(fā)周期,實(shí)驗(yàn)數(shù)據(jù)少則幾萬、多則上億,成本更是千萬元量級(jí)。
不過,洪亮團(tuán)隊(duì)改造蛋白質(zhì)可以做到數(shù)十個(gè)項(xiàng)目同時(shí)進(jìn)行,而且效率還不一般……
金賽藥業(yè)是國內(nèi)生長激素龍頭企業(yè),其產(chǎn)品純化時(shí)需要用到一種抗體(蛋白質(zhì)的一種)。但這種抗體耐堿性很差,純化所必需的強(qiáng)堿環(huán)境會(huì)破壞其結(jié)構(gòu),導(dǎo)致抗體消耗很大。
怎么辦?洪亮團(tuán)隊(duì)僅用4個(gè)月,交給企業(yè)改造而得的新抗體,耐堿性提高4倍,企業(yè)成本一年就可節(jié)約1500萬元。
難道洪亮團(tuán)隊(duì)有什么魔法?其實(shí)他們只是主動(dòng)擁抱技術(shù)浪潮而已——團(tuán)隊(duì)開發(fā)的基于預(yù)訓(xùn)練的通用人工智能Pro大模型扛起了所有。使用這一次從序列直達(dá)功能的大模型,研發(fā)周期可以月計(jì)算,產(chǎn)品更為穩(wěn)定,活性更高,更不必說實(shí)驗(yàn)數(shù)據(jù)只需約100個(gè),成本低至100萬元。人工智能,為生命科學(xué)的基本流程按下了“加速鍵”。
為什么人工智能手段更強(qiáng)
為什么傳統(tǒng)方法改造蛋白質(zhì)很困難?這與蛋白質(zhì)本身的復(fù)雜性有關(guān)。自然界中參與構(gòu)成蛋白質(zhì)的氨基酸有20種,一個(gè)蛋白質(zhì)分子一般由幾十個(gè)乃至數(shù)百個(gè)氨基酸組成,這些氨基酸按照一定序列連接肽鏈,一條或多條肽鏈遵循某些規(guī)律折疊才能得到蛋白質(zhì)。
不難發(fā)現(xiàn),即使只改變序列中某一個(gè)特定的氨基酸,也有19種選擇。而隨著想改變的氨基酸數(shù)量增加,可選方案的數(shù)量指數(shù)級(jí)增長,找到理想方案無異于大海撈針。
那人工智能是怎么做的呢?以Pro大模型為例,最關(guān)鍵的第一步就不同凡響:研究人員將要被改造的“野生”蛋白質(zhì)序列上傳給模型,1到2個(gè)小時(shí)后,模型會(huì)輸出大約30個(gè)方案。
洪亮介紹,在此過程中,模型完成了兩輪篩選,一是在眾多有可能的改造方案中選出符合自然規(guī)律的,類似于將篩選范圍從“大?!笨s小到了“水盆”;二是以熱穩(wěn)定性、活性、親和力、衰減耐受性等功能為指標(biāo),對(duì)“水盆”里的方案進(jìn)行蛋白質(zhì)功能打分,進(jìn)而根據(jù)功能需求將范圍縮小到“水杯”。
模型能發(fā)揮以上兩大核心作用,要從數(shù)據(jù)驅(qū)動(dòng)說起。簡單說就是,投喂給模型足夠多的數(shù)據(jù),它就能從中總結(jié)出規(guī)律,從而預(yù)測(cè)新的答案。
洪亮介紹,團(tuán)隊(duì)向Pro模型投喂了近8億蛋白質(zhì)序列數(shù)據(jù)和接近1億的蛋白質(zhì)功能標(biāo)簽,其中超過5億蛋白質(zhì)序列和所有蛋白質(zhì)功能標(biāo)簽來自團(tuán)隊(duì)及合作機(jī)構(gòu)的長期積累,這是他們的核心優(yōu)勢(shì)。
值得一提的是,功能標(biāo)簽是該模型的“獨(dú)門秘笈”,借助它可以為蛋白質(zhì)序列與前文提到的熱穩(wěn)定性、活性、親和力、衰減耐受性等功能找到合理的對(duì)應(yīng)方式。此前AlphaFold2預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)一鳴驚人,就是因?yàn)樗昝缹?shí)現(xiàn)了蛋白質(zhì)序列到結(jié)構(gòu)的對(duì)應(yīng),而蛋白質(zhì)序列到功能的良好對(duì)應(yīng)有助于蛋白質(zhì)實(shí)現(xiàn)更優(yōu)異功能,可謂改造蛋白質(zhì)的“勝負(fù)手”。
從蛋白質(zhì)到底盤菌,有可能嗎
改造蛋白質(zhì)的可選方案從“大海”縮小到“水杯”之后,還要做什么呢?
第一步:濕實(shí)驗(yàn)驗(yàn)證,也就是將第一步中模型產(chǎn)出的方案拿去驗(yàn)證,并將驗(yàn)證結(jié)果反饋給模型,供其學(xué)習(xí)和調(diào)整。
洪亮團(tuán)隊(duì)正進(jìn)行濕實(shí)驗(yàn)驗(yàn)證
第二步:模型重復(fù)第一步的預(yù)測(cè),給出新一批方案,大約也是30個(gè)。
第三步一般也是最后一步:通過濕實(shí)驗(yàn),從新一批方案中選出理想方案。
在洪亮團(tuán)隊(duì)位于上海張江的工作平臺(tái),我們可以看到,這里有濕實(shí)驗(yàn)所需的各類實(shí)驗(yàn)室,人工智能研究人員的工位就在實(shí)驗(yàn)室外,大家交流起來很方便。“雖然我們訓(xùn)練模型用了幾年時(shí)間,但為后來工作的效率打好了基礎(chǔ)。”洪亮說,現(xiàn)在眾多蛋白質(zhì)改造項(xiàng)目同時(shí)進(jìn)行,人工智能環(huán)節(jié)卻只需要兩個(gè)人,其余十余人主要是負(fù)責(zé)濕實(shí)驗(yàn)。
現(xiàn)在,更有提升空間的其實(shí)是濕實(shí)驗(yàn),每輪濕實(shí)驗(yàn)驗(yàn)證需要1至2個(gè)月,每輪模型預(yù)測(cè)只需要1至2個(gè)小時(shí)。如果濕實(shí)驗(yàn)的機(jī)械化、智能化程度進(jìn)一步提高,改造蛋白質(zhì)的速度還會(huì)加快。
對(duì)于科學(xué)家來說,擁抱新技術(shù)的腳步一旦邁出,就不會(huì)輕易停歇?!暗鞍踪|(zhì)做得差不多了,我們?cè)谕v深探索,下一步要攻關(guān)底盤菌的人工智能工程化方案。”洪亮指的是將蛋白質(zhì)的人工智能改造,擴(kuò)展到人工智能生產(chǎn),通過改造底盤菌的基因組,讓其高效生產(chǎn)目標(biāo)產(chǎn)品。
如果要往更深層次理解,人工智能“攻下”蛋白質(zhì),其實(shí)是在“破譯”生命的路上突飛猛進(jìn)。以人工智能的顛覆性速度,或許要不了多久,我們就能目睹從“破譯”生命到“修正”生命的變革。
半月談?dòng)浾撸憾?吳振東 編輯:范鐘秀