國產(chǎn)GPGPU如何趕超國外?探尋國產(chǎn)GPGPU破局之路
在數(shù)字經(jīng)濟化時代,算力就是生產(chǎn)力。隨著以算力為核心的科技競爭成為當前大國競爭的戰(zhàn)略焦點,把握算力發(fā)展的重大戰(zhàn)略機遇期就是搶占發(fā)展的主動權(quán)和制高點。
作為新型生產(chǎn)力,算力的迅猛發(fā)展離不開芯片、數(shù)據(jù)中心和云計算等產(chǎn)業(yè)鏈的日臻完善,特別是作為三大算力芯片之一的GPU,更是兵家必爭之地。而由GPU衍生出來的GPGPU憑借并行計算理念打造出強大的高性能通用計算優(yōu)勢,在算力時代正風生水起。
有算力時代繪就的宏偉GPGPU藍圖召喚,有英偉達一飛沖天的傳奇激勵,疊加中國進口替代以及科創(chuàng)板的杠桿效應,資本對GPGPU賽道高度興奮,一眾初創(chuàng)公司亦相繼涌現(xiàn),爭相登高一呼,要在融資、量產(chǎn)、應用層面試比高,也讓這一賽道端得熱鬧非凡。
但要警醒的是,與GPGPU高熱相伴的是圈內(nèi)的浮躁風、套殼風和虛夸風不止。而在波譎云詭的國際形勢面前一系列熱點事件的發(fā)酵,更讓業(yè)界關注國產(chǎn)GPGPU的真實“成色”。穿越GPGPU的重重迷霧,到底該如何解鎖國產(chǎn)GPGPU的真功夫?
通用or專用,智能算力芯片架構(gòu)該如何設計?
常用芯片中最通用的就屬CPU。以英特爾、AMD為代表,幾乎可以做任何事情,但是無法做到極致的性能和功耗。能做到極致能效比的是專用芯片,既所謂的ASIC。但是它的編程性差,應用的范圍就比較窄。
而在這兩個極端之間還有很多選擇,比如GPU,這些年越來越成為行業(yè)的熱點。GPU是一個相對比較通用的處理器,現(xiàn)在稱之為GPGPU,具有良好的編程性,特別適合大規(guī)模數(shù)據(jù)并行類應用。還有一類在硬件靈活度上更大的就是FPGA(現(xiàn)場可編程門陣列),這類器件可以通過硬件描述語言來改變邏輯結(jié)構(gòu),性能和功耗會更好,只是編程的難度較大。
通過分析過去五年具有代表性的芯片公司的股價走勢,就可以對行業(yè)的發(fā)展趨勢窺見一斑:英特爾近五年股價上漲了50%;Xilinx(全球領先的FPGA公司)股價大概上漲了2.6倍;而英偉達(當紅的GPGPU壟斷企業(yè))過去五年股價上漲了16倍。我們即便不去追究深層次的原因,僅憑股價的成長也可以判斷行業(yè)已經(jīng)作出了選擇,GPGPU已經(jīng)成為未來計算的主角和核心。
同時,以史為鑒,從GPU的發(fā)展歷史看,它是如何一步一步成長為行業(yè)王者的?
GPU早在上世紀八十年代就已經(jīng)出現(xiàn)了,那時對于游戲的需求催生了特殊的專用于圖形渲染的硬件,這就是早期的GPU。在1990年-2000年這段時間,涌現(xiàn)了很多GPU廠商,每家公司規(guī)模并不大,有很多代表性的專用芯片產(chǎn)品。但是到了2005年左右,大家意識到在圖形學這個領域算法變化很快,可能每隔幾個月甚至每隔幾周就會發(fā)生翻天覆地的變化。但芯片需要18個月才能完成一次更迭,如果把硬件完全固定下來就無法跟上行業(yè)發(fā)展的節(jié)奏。
所以,人們開始探索把原來不可變的執(zhí)行流水線,設計成可以部分編程的架構(gòu),這種架構(gòu)更加靈活,可以更加高效的適應算法的變化。真正的GPGPU行業(yè)大發(fā)展始于2006年出現(xiàn)的CUDA(Compute Unified Device Architecture,統(tǒng)一計算設備架構(gòu)),它是一種精心設計的、可對GPGPU直接編程的接口和語言。從此以后,對于大量的數(shù)據(jù)并行應用就可以方便地使用CUDA編程,從而釋放出GPGPU中可觀的算力。
所以回看過去幾十年GPU的發(fā)展之路,是一條從“專用”過渡到“比較通用”,直到現(xiàn)在“非常通用”的發(fā)展路徑。如果我們用來類比今天的人工智能,是否也有相同的趨勢?AI需要極致的算力和能效比,做成專用芯片可能是合適的。但AI算法的變化又非常快,可能以“天”計,這又要求我們不能做成非常固定的硬件,可能最后也會收斂到一個偏通用的架構(gòu)。這是我們的一個推論。
補位迫切 國產(chǎn)GPGPU迎來新考驗
經(jīng)過多年的積淀,中國作為算力發(fā)展的“領跑者”,已在算力競逐中走到世界前列。
截至2022年6月,中國數(shù)據(jù)中心機架總規(guī)模超過590萬臺,服務器規(guī)模約2000萬臺,算力總規(guī)模超過150 EFlops,位列全球第二。有機構(gòu)預測到2025年,中國GPGPU市場規(guī)模將達到458億元,相較于2019年的86億元增長5倍多。
但在巨大的市場規(guī)模背后,折射的卻是GPGPU難言的尷尬境地。英偉達、AMD雙雄憑借多年構(gòu)筑的護城河優(yōu)勢,壟斷了中國GPGPU的90%市場。隨著GPGPU應用在云計算、大數(shù)據(jù)、工業(yè)、安防、HPC等市場蔚然成風,無論是中國自身算力的大發(fā)展,還是國產(chǎn)高端大芯片的自主化率提升,國產(chǎn)GPU不能也不應在這一賽道上缺席太久。
加之中美科技戰(zhàn)愈加嚴峻,特別是英偉達禁售A100事件發(fā)生以來,國產(chǎn)GPGPU“替代”之路將不斷加快,如何做強成為新的考驗。
特別是黨的二十大報告也提出,以國家戰(zhàn)略需求為導向,集聚力量進行原創(chuàng)性引領性科技攻關,堅決打贏關鍵核心技術攻堅戰(zhàn)。GPGPU作為國內(nèi)急待突破的高端芯片之一,必然要走上自主化道路。
近幾年國內(nèi)GPGPU公司乘著政策、資本、人才和應用的東風相繼涌現(xiàn),除了一眾老將之外,包括珠海芯動力、壁仞、沐曦、登臨、天數(shù)智芯、紅山微電子、瀚博半導體等新勢力集結(jié)發(fā)力,或在自研架構(gòu)層面的高算力高靈活性發(fā)力;或在生態(tài)打造上可圈可點;或在應用上開疆拓土,在某些特定應用領域也在加快落地。
從云端走向更廣闊的場景
作為一種通用計算芯片,云端訓練只是GPGPU典型的應用場景之一,正如NVIDIA所言,GPGPU最終的目的是將AI引入到各行各業(yè)中。鄒翾也談到:“我們做的GPGPU全稱是通用圖形處理器(General-Purpose Computing on Graphics Processing Units),就是讓本為圖形圖像處理而生的GPU能夠運行圖形渲染之外的通用計算任務。”
鄒翾表示,GPU在端到端AI部署中,屬于一個已經(jīng)被驗證的芯片架構(gòu)。AI端側(cè)發(fā)展會驅(qū)動應用背后更多新型函數(shù)和新型算子的出現(xiàn),這些需求將被融合到GPU未來的軟硬件開發(fā)中。
GPGPU的設計特點在于其通用可編程性,對于層出不窮的新的算法和應用,能做到性能和開發(fā)成本間較好的平衡。同時,基于GPGPU的通用性,客戶可以在類似軟硬件架構(gòu)間的產(chǎn)品間進行應用的無痛遷移。
在GPGPU領域,NVIDIA無疑是行業(yè)的標桿,不僅擁有百萬開發(fā)者支持的CUDA,還在指令集的覆蓋面、顆粒度、效率等維度有領先優(yōu)勢,再考慮到產(chǎn)業(yè)生態(tài),國產(chǎn)GPGPU替代還有很長的路要走。在NVIDIA官網(wǎng)有提到,AI應用不僅需要大的內(nèi)存池,也需要CPU和GPU緊密耦合。
對于這一點,鄒翾認為,GPU注重的是同類型的數(shù)據(jù)按照同樣的處理流程進行高效并行處理,CPU的優(yōu)勢是處理復雜邏輯流程。CPU和GPU在一個芯片上是可以實現(xiàn)的,而且以前也存在這種整合性的產(chǎn)品,但是對于高端的、云端的CPU加上GPU同時實現(xiàn),需要非常大的尺寸規(guī)模,而且會限制芯片在各自領域的性價比。
在此,我們嘗試探討發(fā)展國產(chǎn)自主GPGPU的三種可能性:
第一條道路叫“農(nóng)村包圍城市”。策略是從專用芯片做起,把某一個小的領域做精做強,占據(jù)一個山頭,然后再占第二個、第三個,形成一個個的革命根據(jù)地,逐漸實現(xiàn)農(nóng)村包圍城市。但也要防止各家企業(yè)在小的山頭上惡性競爭乃至自相殘殺,從而忘記了我們真正的歷史使命和遠大目標。經(jīng)常發(fā)生的誤區(qū)是:當一個企業(yè)爬上一座山頂?shù)臅r候,只顧著欣賞眼前的風景而忘記了去征服更高的高山。
第二條道路來自“龜兔賽跑”的啟發(fā)。在歷史上小企業(yè)挑落行業(yè)巨頭的案例也是屢有發(fā)生的,比如說,英特爾的指令集在桌面電腦上一家獨大,但后來ARM能夠成功挑戰(zhàn)英特爾,就是抓住了移動互聯(lián)網(wǎng)帶來的歷史機遇。英特爾在這個時候打盹了,并沒有意識到行業(yè)發(fā)生的深刻變革(再加上幕后推手蘋果公司的推波助瀾)。當下人工智能時代帶來的變革可能還要超越移動互聯(lián)網(wǎng),但令人吃驚的是在這個大變革的時代,實際上是兔子跑得比烏龜快。“兔子”就是英偉達,英偉達沒有停下前進的步伐,沒有犯當年英特爾的錯誤,至今還保持著當年初創(chuàng)企業(yè)的活力,很多行業(yè)突破性的技術是最先出現(xiàn)在英偉達的產(chǎn)品上。
兔子跑得快已經(jīng)很棘手,而糟糕的是,我們作為后發(fā)者,國內(nèi)的芯片人才本來就極為緊缺,但由于資本的驅(qū)動,短期內(nèi)催生出很多芯片公司,據(jù)說今年新成立的芯片公司是去年的3倍,而培養(yǎng)的人才不可能一下子成長這么多。都說要集中優(yōu)勢兵力才能殲滅強敵,但現(xiàn)狀是,我們把為數(shù)不多的兵力分散到多個戰(zhàn)場,從而陷入越打越弱的怪圈。以史為鑒,只有當對手疏忽的時候,抓住戰(zhàn)機畢其功于一役才有大的勝算,這往往需要有極大的戰(zhàn)略定力,甚至還需要有些運氣。在芯片行業(yè),千萬要防止一哄而上之后的一哄而散!
第三條道路也是目前我們認為最有機會的道路,就是開源。靠的是眾人拾柴和愚公移山,要的是細水長流,拼的是“天荒地老”。通過開源戰(zhàn)勝強大的對手,在軟件生態(tài)方面已經(jīng)戰(zhàn)果累累,在硬件上也已經(jīng)開始顯示威力。我們有理由相信,開源硬件即便不能一統(tǒng)江湖,至少也可以分庭抗禮。
我們認為,現(xiàn)階段國內(nèi)完全有機會做一個開源開放的、免費公益的GPGPU項目,目的是打造一個全棧式的平臺,提供開源硬件,編譯器、算子庫等,并且在指令集的設計上盡可能接近或者兼容CUDA生態(tài)圈。我們的研究團隊最近攥寫了一本關于GPGPU體系結(jié)構(gòu)的專用教材,書名是《通用圖形處理器設計—GPGPU編程模型和架構(gòu)原理》,預計明年初正式出版發(fā)行。同時希望號召國內(nèi)最大的程序員社區(qū),大家攜起手來,摒棄門戶之見,都來支持國產(chǎn)自主GPGPU,盡快把這個生態(tài)做大做強。
通過這些方式,經(jīng)過十年以上的努力,我們堅信在這一塊的劣勢會逐步得到彌補,逐漸縮小和國外巨頭之間的差距。
