人工智能的戰(zhàn)場,是算法之爭、數(shù)據(jù)之爭,更是算力之爭。AI燒熱的,不只是一個個街談巷議的話題,更是一顆顆大模型須臾不可離的GPU。
算力焦慮,猶如人工智能頭頂?shù)囊欢錇踉?。吹散這朵烏云,能僅憑傳統(tǒng)芯片不斷升級的力量嗎?也許,我們應(yīng)該換個思路,轉(zhuǎn)而向我們自己的大腦學(xué)習(xí)……
要論能效,還看大腦
1946年,世界上第一臺電腦誕生。1973年,世界上第一臺手機接通。經(jīng)過半個多世紀(jì)的發(fā)展,今天的電腦手機已經(jīng)成為人們追求智能生活不可或缺的基礎(chǔ)設(shè)施。只不過,若論能效——算力與所需能量消耗之比,它們與人腦相比還是略遜一籌。
不妨用數(shù)字說話。訓(xùn)練一款ChatGPT,需要燒掉多少算力?如Open AI所透露的,ChatGPT背后有一個龐大的計算網(wǎng)絡(luò)——Azure AI超算平臺。這個微軟專門建設(shè)的高性能網(wǎng)絡(luò)集群包含1萬顆GPU,為ChatGPT付出的總算力消耗超過3640 PF-days(以每秒計算1000萬億次計,持續(xù)計算3640天)。
而人類大腦在25瓦的極低能耗下,就能實現(xiàn)復(fù)雜環(huán)境中的關(guān)聯(lián)記憶、快速識別、自主學(xué)習(xí)。這是為什么呢?
人類大腦活動是精密而連續(xù)的動力學(xué)過程,復(fù)雜程度遠(yuǎn)超當(dāng)前算力資源模擬的上限。大腦約有1000億個神經(jīng)元,100萬億個突觸,突觸連接的平均長度約10-1000微米。以記憶為例,就與突觸形態(tài)與功能的長期變化有關(guān)。
清華大學(xué)集成電路學(xué)院長聘副教授高濱舉了一個例子:生理學(xué)先驅(qū)巴甫洛夫每天在狗吃飯前敲響鈴聲,再給它食物。經(jīng)過一段時間,狗只要聽到鈴聲,第一反應(yīng)就是分泌唾液。這是因為狗的大腦已經(jīng)在搖鈴鐺和吃東西之間建起連接,微觀層面而言,就是兩個神經(jīng)元之間的突觸連接變強,記憶由是產(chǎn)生,在此基礎(chǔ)上,完成一次自適應(yīng)學(xué)習(xí)。
小小芯片,模擬大腦
與人類大腦不同,迄今計算機的計算體系結(jié)構(gòu)采取馮·諾依曼架構(gòu),計算與存儲分離。數(shù)據(jù)在處理器和存儲器之間不停地來回傳輸,約80%至90%的功耗都消耗在“搬運”中。
“每運算一次,就相當(dāng)于把貯藏在遙遠(yuǎn)倉庫(存儲器)中的原材料(數(shù)據(jù))運輸?shù)较嗑嗌踹h(yuǎn)的加工廠(處理器),而且運輸?shù)牡缆泛苁仟M窄。這就導(dǎo)致實際生產(chǎn)效率非常低下,生產(chǎn)能力受到了運輸能力的限制——這個局限就是‘存儲墻’。運算量越大,這個瓶頸就越顯著。”高濱說,馮·諾依曼架構(gòu)在進行大規(guī)模的矩陣運算時,局限更為明顯。
試想一下,人類大腦在思考時會有計算和存儲的分別嗎?左半球計算、右半球存儲?“不是的。大腦的計算、存儲發(fā)生在同一處,無需把數(shù)據(jù)搬來搬去?!敝袊茖W(xué)院微電子研究所研究員尚大山說。
讓我們重新回到人腦的工作原理。神經(jīng)元接收來自其他神經(jīng)元的信號,達到一定閾值時,即會向其他神經(jīng)元發(fā)送信號。突觸則負(fù)責(zé)信號傳遞,而且會依據(jù)信號的強度調(diào)整傳遞的強度(突觸權(quán)重)。這個看似簡單無奇的過程,卻是身為“萬物靈長”的人類智慧得以承傳的前提,學(xué)習(xí)與記憶發(fā)生的基礎(chǔ)。
簡潔、高效而靈活,這樣的計算方式讓芯片科學(xué)家感慨演化的神奇之余,也不禁設(shè)想:何不設(shè)計一種可以模擬人腦的芯片?
一種新型電路元件——憶阻器,使這一設(shè)想有了實現(xiàn)的可能。
尚大山將憶阻器比作一條流動的河流:“河流的寬度(電阻值)可以根據(jù)流過的水量(電荷)而變化。如果流過更多的水,河床可能會變寬,使后續(xù)的水流更容易通過(電阻減?。?。即使水流停止(斷電),河流的寬度(憶阻器的電阻狀態(tài))也不會變化,直到有新的水流來改變它?!?/p>
為何說憶阻器能夠模擬大腦?高濱說,憶阻器的奇妙特性,就在于可以通過外加電壓的調(diào)制來改變其電阻值,這樣,憶阻器器件就可理解為一個“電子突觸”,突觸權(quán)重用憶阻器電阻值來模擬。憶阻器陣列就可模擬人腦神經(jīng)元的突觸連接;神經(jīng)元的功能,則可以搭建具體的功能電路模擬。當(dāng)前人工智能的核心算法——深度神經(jīng)網(wǎng)絡(luò),就轉(zhuǎn)化為了憶阻器陣列的模擬計算。
簡單說,憶阻器存算一體芯片是存儲器中實現(xiàn)計算?!斑@相當(dāng)于將加工廠放到了倉庫邊上,做到了本地加工生產(chǎn),把交通運輸過程中的時間、能源耗費降到最低?!备邽I說。
超越“摩爾”,有待時日
衡量信息技術(shù)進步速度的摩爾定律,大家也許都耳熟能詳。不過,在一顆芯片上已可集成800億個晶體管的今天,這一“定律”還能適用多久,業(yè)界不無憂心。為芯片革新尋求增加晶體管數(shù)量之外的可能,在追求更高性能的同時盡量滿足低功耗、低延遲、低成本,成為當(dāng)務(wù)之急。
打破“存儲墻”的存算一體模式,成為超越摩爾定律的潛在方向。而憶阻器,某種程度上就是存算一體的未來。
清華大學(xué)研究人員在實驗室進行憶阻器電學(xué)特性實驗
“憶阻器存算一體芯片最大的優(yōu)勢在于能效高,有望比馮·諾依曼架構(gòu)提升2至3個數(shù)量級,是彌補工藝制程代差的可選路徑?!敝袊苿友芯吭何锫?lián)網(wǎng)研究所副所長牛亞文說,近期清華大學(xué)聯(lián)合中國移動研發(fā)的110納米憶阻器存算一體芯片已經(jīng)達到馮·諾依曼架構(gòu)28納米GPU的能效。
訪問密集型任務(wù)尤其是這種新型芯片的用武之地。人臉識別、圖像識別、語義分割、大數(shù)據(jù)檢索……種種人工智能時代的尋常場景,都可讓憶阻器高密度和非揮發(fā)性存儲的特性一展長才。
當(dāng)然,當(dāng)前憶阻器存算一體芯片仍存在集成規(guī)模受限、推理精度誤差大、軟件生態(tài)構(gòu)建難等問題,將硬件、軟件、系統(tǒng)、算法、庫以及終端應(yīng)用一體化整合,還有很長一段路要走。有專家提醒,憶阻器芯片一個有待突破的局限在于其耐久性。傳統(tǒng)存儲芯片依恃的晶體管靠控制電子的移動來存儲數(shù)據(jù),而憶阻器控制的是離子的移動。離子較電子更重,時間一長,靈活性、耐久性不免打了折扣。
芯片研發(fā)是需要在產(chǎn)業(yè)化中不斷淬厲的事業(yè)。從科學(xué)到工程,從實驗室到生產(chǎn)線,憶阻器芯片可以期待的明天,還在業(yè)界不斷嘗試的努力之中。
半月談記者:張漫子
原標(biāo)題:《緩解算力焦慮,向“大腦”要答案》