亚洲国产综合精品一区,综合伊人久久在,久久高清内射无套,天堂√在线中文官网在线,亚洲—本道中文字幕东京热,亚洲高清专区日韩精品,超碰免费公开,国内免费久久久久久久久
歡迎訪問深圳市中小企業公共服務平臺電子信息窗口

老黃煉成的“AI電腦”帝國:從GeForce到GB300 NVL72…

2025-06-03 來源:電子工程專輯
406

關鍵詞: NVIDIA AI基礎設施 DGX Spark RTX PRO Server scale-up與scale-out

今年Computex上,NVIDIA的多種“AI電腦”形態亮相——但和你想得不同,主角仍然不是GeForce...

可能不少同學已經忘了Computex是“臺北國際電腦展”——即便其定位也在隨著技術發展做調整,但最初它可是主要面向“電腦”或“個人計算機”的。而現在Computex展上,除了傳統意義上的“電腦”,你還能見到不少IoT、機器人、數據中心產品。

我們感覺在這種轉變上,頗具代表性的一個標志性事件是,黃仁勛(NVIDIA CEO)在今年Computex的主題演講中花了2分鐘發布GeForce RTX 5060,剩下的一個多小時都是在談AI基礎設施、Omniverse、機器人。

他在會上也挺有“自知之明”地說:“GeForce把我們帶到這里,雖然我們現在的主題演講90%都不是相關于GeForce。”“當然原因不是我們不再熱愛GeForce了。”然后轉頭就開始聊CUDA相關的行業生態了...(GeForce的發布會比重分明只有1%.....)

畢竟從營收規模角度,前不久我們也分析過Gaming業務當前在NVIDIA的比重大不如前了。不過實際上,從AI基礎設施的角度來看,在NVIDIA現如今的版圖下,采用RTX顯卡的PC也是其中一環——這一點我們在今年的GTC期間就談過

從正兒八經“電腦”的角度,下面這張圖展示了基于NVIDIA GPU的、不同規模的AI基礎設施——雖然稱不上全家福:其中就有作為個人電腦的RTX Laptop(雖然未必是采用消費級GeForce顯卡),也有今年上半年特別火的DGX Spark,當然還有核彈級、內置72顆Blackwell數據中心GPU的Grace Blackwell NVL72系統...

這就是傳說中的“一個架構”覆蓋各設備形態與應用場景。老黃在發布面向企業與工業的AI計算平臺RTX PRO Server服務器時,還特別提了一句“這上面能跑《孤島危機(Crisis)》”,以及順便問了句“臺下有GeForce游戲玩家嗎?”,也算是給“AI源起自GeForce”官方正名了。

何況老黃也始終是將DGX這樣的設備稱作“AI Computer”的,再大規模也依舊是“電腦”或“計算機”——算是給Computex的“電腦”主題點題了。

那么借著本次NVIDIA在Computex發布多款AI“計算機”的機會,本文就相對片面地試著談談NVIDIA不同規模的AI基礎設施布局;并且幫助大家和我們自己,從邊緣、個人,到企業、云,理解NVIDIA現如今的系統級產品在性能擴展上的邏輯與技術...

 

比肩當年超算的AI個人計算機

真正面向個人電腦的GeForce及專業視覺卡就不談了,電子工程專輯就GeForce顯卡產品也做過系列體驗。在“個人電腦”或者叫“桌面上的AI超算”范疇,今年CES之上大火的一款產品就是老黃拿在手里、看起來像是縮小版DGX服務器的小設備——當時還叫Project DIGITS,后正式定名DGX Spark。

今年CES的報道特別聊過這臺設備:和Jetson這類面向邊緣的計算機不同,DGX Spark各方面的規格都相當認真和充沛:其中的GB10芯片,CPU部分是10個Cortex-X925核心 + 10個Cortex-A725核心(這顆CPU也被標注為Grace CPU);Blackwell GPU內藏1000 TOPS算力(Tensor core,應該是指FP4算力1 PetaFLOPS);主內存為128GB LPDDR5X,也有1TB/4TB NVMe SSD。

從外媒(Notebookcheck)泄露的跑分成績來看,GB10的CPU在單核性能表現上就已經能夠和高端Arm/x86處理器比肩。加上對WiFi 7/藍牙5.3的支持,還配有RJ45以太網接口,似乎就和一臺PC相似;雖然DGX OS操作系統,以及特別配的ConnectX-7 NIC(用于實現兩臺DGX Spark互聯是實現算力擴展),還是令其不同于傳統PC。

“這是專為AI原生開發者準備的。”“對開發者、學生、研究人員而言,你可能期望有屬于自己的AI云,就擺在你身邊;用于原型設計、早期開發等等。”Computex上,老黃宣布DGX Spark已經完全量產,也會有包括Dell, HPI, 華碩, 微星, 技嘉, 聯想等在內的OEM廠商推出不同的OEM設備。

比較有趣的是,黃仁勛在主題演講中特地將當年的DGX-1與DGX Spark放在一起做了尺寸上的對比。“兩者的性能很相近。現在相同的工作也可以在這臺設備(DGX Spark)上干了。”“僅僅大約10年時間,就有如此進步。”既然NVIDIA常把DGX稱作Supercomputer(超級計算機),這一刻也算是這個時代下小臺式機(DGX Spark)AI性能媲美超算(DGX-1)了吧

此前不少讀者好奇,DGX Spark能不能像GeForce設備那樣玩游戲。我們現在仍然不清楚GB10芯片的圖形渲染算力堆料多少。不過某些OEM廠商資料提到GB10芯片用上了6144個CUDA core,也配有RT core。

大致猜測,如果配套圖形渲染固定功能單元跟上的話,那么其游戲性能大約與GeForce RTX 5070相似。當然玩游戲的前提是解決Linux + Arm生態問題,就像我們此前試用Jetson Orin Nano時提到的那樣。

DGX Station內部——這款產品大概主要會由OEM廠商來推

另外,今年GTC上NVIDIA還發布了一款相較DGX Spark規格更高、尺寸稍大的DGX Station,是我們3月份的報道未有提及的。NVIDIA對其定位是能跑1萬億參數模型的個人AI設備。

雖然還是“個人設備”,但DGX Station的配置就明顯更向服務器或企業產品靠攏了:無論是基于Neoverse V2的72核Grace CPU,還是為Blackwell Ultra GPU所配的288GB HBM3e顯存,和多一個層級的496GB LPDDR5X主內存,以及CPU和GPU之間的互連動用到了NVLink-C2C。

注意,DGX Station可是用上了最新的GB300——NVIDIA官網稱其為GB300 Grace Blackwell Ultra Desktop Superchip。當然基于ConnectX-8的networking,DGX Station也支持多設備性能擴展。在我們看來,DGX Station明顯更像AI計算集群的微縮版。

除了同樣是AI原生計算機,“這可能是目前市場上性能最強,可直接從墻插(wall socket)取電的計算機了。”“其編程模型與我們的那些巨大系統是一樣的。”有沒有感覺,就形態和生態角度,DGX Spark和DGX Station作為更偏個人的AI原生計算機,的確還真是比隔壁的某AI Max+高上不少的?至少其思路更明確。

 

能玩《孤島危機》的企業服務器

理論上,這兩款產品往更高AI算力水平走,后面應該是DGX B200(8x Blackewell GPU)和GB200。不過有關同架構算力擴展——不管是scale-up還是scale-out,我們都打算放到后文介紹GB300 NVL72的部分去談。Computex上發布的、相比上述DGX Spark和DGX Station,更高AI算力的新設備為NVIDIA RTX PRO Server

嚴格意義上RTX PRO Server不應當與DGX系列相提并論。黃仁勛之所以開玩笑式的提了一句它能跑《孤島危機》,就在于其較高的RTX圖形性能(以及搭配x86 CPU),可用于實時的Omniverse數字孿生模擬(所以其實更像OVX?)。

RTX PRO系列芯片本身有面向服務器、工作站和移動工作站的不同產品;所以RTX相關產品的算力伸縮,往下也不是DGX Station/Spark,而應該是RTX Blackwell專業視覺工作站和GeForce游戲設備。

不過在“一個架構”的指導思路下,在我們看來NVIDIA不同系列的芯片、系統及設備,硬件層面的確也就是AI, HPC, graphics之間的資源分配問題。所以即便OVX和RTX PRO Server也是面向Omniverse的計算機,但它們同樣也重AI性能。

本次發布的RTX PRO Server服務器,是面向“企業AI與工業AI的運算平臺”:總共8張RTX PRO 6000服務器版顯卡(單卡24,064 CUDA core, 752 Tensor core, 188 RT core, 96GB GDDR7顯存——即便不看連接,單卡的算力與存儲資源堆料顯然是超RTX 5090的,游戲自然是小意思);

基于ConnectX-8 SuperNIC交換(應該是4顆芯片),可實現800Gb/s的全連接帶寬(PCIe Gen 6!);組合出理論峰值FP4算力30 PFLOPS;用于Omniverse這樣的圖形數字孿生模擬場景時,提供3 PFLOPS的圖形性能;800GB顯存。

順帶一句,單卡GeForce RTX 5090的這一數值是104.9 TFLOPS。不考慮通信延遲、編程兼容性之類的實際問題,如果真的用RTX PRO Server服務器玩《孤島危機(Crysis Remastered Trilogy)》,那么在不開DLSS的情況下,大致預估并行跑10個4K+最高畫質@60fps應該沒問題;算上AI加成的話,就沒法估計了…

當然肯定沒有企業會這么用:對于企業用戶而言,它能跑各種傳統Hypervisor,跑虛擬桌面等;當然也能跑Omniverse,以及企業AI——包括現在流行的Agentic AI。

尤為值得一提的是,這款服務器產品里頭除了8張GPU以外,還有張板子專門用于數據交換(上圖),基于ConnectX-8 NIC——“用于交換與networking(switch first, networking second)”,“也是目前全球最先進的networking芯片”。“每個GPU都有自己的networking接口,東西向(east-west traffic)網絡實現了GPU的全連接。”

GTC主題演講中,黃仁勛談過企業的生成式AI應用中,服務面向個體用戶的響應速度及整體AI吞吐能力(tks/s)這兩個無法兩全的變量。而軟硬件的性能與效率提升,有利于兩者的同時提升。前不久電子工程專輯的文章也探討過這個問題。

當將這兩個變量作為x和y軸畫在一張圖上,對于特定的硬件和AI模型而言,基于不同的配置,則可以得到一條類似拋物線的曲線(下圖)。曲線與坐標軸形成的面積越大,也就表明AI基礎設施為企業造就的價值越高。

針對本次新發布的RTX PRO Server,NVIDIA給出的數據是,在跑Llama 70B模型(8K ISL / 256 OSL)的時候,特定配置之下(通常是曲線上達成最大平衡的點),其表現是H200的1.7倍。如果換成DeepSeek R1(128K ISL / 4K OSL),則相比H100 HGX服務器領先4倍。

 

算力規模的scale-up與scale-out

算力需求再往上走,就該到機柜級別了。在談GB300 NVL72系統之前,這里先插入個有趣的話題:GTC 2025期間,黃仁勛曾著重明確過有關性能擴展的兩個詞:scale-up與scale-out。這兩個詞感覺要翻譯成中文有難度,后文就都用原單詞來指代對應概念。

一般我們對算力擴展的大方向理解是:芯片層面通過摩爾定律來提升算力水平,封裝層面可通過多die或chiplet再做算力擴展,板級可以用多芯(多封裝)方案;然后就是一張板子上插很多張卡,構成服務器;服務器之間還可以通過networking互連,組成機柜、計算集群等等……

為什么現在常能聽到有人說,NVIDIA在AI領域的所謂“生態”優勢絕不僅在CUDA和各種軟件上,還在于交換和networking技術?就因為NVIDIA在上述算力擴展/伸縮的每個環節都做到了幾乎是業界最佳,且競爭對手一時半會兒難以望其項背。

說穿了算力擴展也就是把一堆計算機(或芯片)合起來一塊兒工作,但怎么高效率地“合”是關鍵。單系統內的算力擴展在NVIDIA的定義中就是scale-up;當涉及系統外的networking互連達成算力擴展則為scale-out。所以黃仁勛說在scale-out之前,首先要做scale-up。當然這里還涉及“系統”究竟是什么的問題。

我們理解老黃對于這兩個詞的界定為,一個完整的NVLink域內的算力擴展就是scale-up,比如說Grace Blackwell NVL72系統。去年GTC上,NVIDIA發布GB200 NVL72——這就是個由72顆Blackwell GPU構成的完整系統,設備形態已經是個機柜了。

本文不打算去談scale-out——前不久挺火的NVIDIA CPO硅光芯片就應當被劃歸到scale-out算力擴展范疇,所以顯然在scale-out方向上,NVIDIA也是在花功夫的。

至于NVLINK域內的scale-up,“做scale-up非常難。”從今年GTC上NVIDIA的新品預告來看,后續NVIDIA還準備把scale-up范圍擴展到576片GPU die(Rubin Ultra NVL576)。好像NVIDIA在市場宣傳方向上,也熱衷于將一個充分scale-up過的系統稱作“一顆巨大的GPU”,以強調系統內部協作的高效性。去年黃仁勛就說,GPU已經從早期的那一小顆芯片,變成了現在這么這么大(NVL72機柜)…

今年黃仁勛對scale-up的比喻更有趣,他將NVLINK視作CoWoS封裝的上層技術——是不是挺形象的?既然說NVL72機柜是一整顆虛擬GPU,CoWoS作為臺積電的芯片先進封裝技術將chiplet連到一起;那么NVLINK作為連接這些GPU的技術,也扮演了類似的角色,只不過層級不同罷了。

而GB NVL72系統在黃仁勛看來,也是突破半導體物理限制、構建起的更大型AI計算機。

Computex上,NVIDIA發布的是更新的Grace Blackwell Ultra(GB300,主體1顆Grace CPU + 2顆Blackwell Ultra GPU)。Blackwell Ultra是Blackwell的改良款;GB300相比GB200則對應實現了FP4算力水平1.5倍提升(40 PFLOPS),HBM3e顯存性能1.5倍提升(567GB @16TB/s),ConnectX-8帶寬2倍提升(800Gb/s)。

一個有趣的數字——最近也被不少媒體提過,40 PFLOPS這個數字已經超過了2018年采用18000個Volta架構GPU的Sierra超算。也就是現在一個計算節點就能超越當年的整個超算。顯然這4000倍性能提升絕不單是芯片技術提升所能達成的了。

GB300(和基于x86的B300)服務器開始采用100%液冷方案;最右邊的是NVLINK交換設備,可達成7.2TB/s的交換速率;

GB300再構成GB300 NVL72系統時,72顆GPU再度構建起完整scale-up過后的NVLINK域。每次黃仁勛都很喜歡強調,NVLINK骨干帶寬130TB/s,超越整個互聯網峰值流量速率;有時候說NVLINK相當于把整個機柜變成一張主板,有時候說讓機柜變成一顆巨型GPU…總體都是要表明,自家NVLINK技術之優秀。

不過就組建GB NVL72這樣一套AI計算機整體,在NVIDIA的介紹視頻中也還是明確了整個產業鏈所做的共同努力的。這樣一臺“AI電腦”機柜總體由1200萬個組件、2英里的銅纜、130萬億晶體管構成,重達1800kg(這些形容的主要是GB200 NVL72)。

 

還有個“AI電腦”定制服務...

電子工程專輯現在也很難得的,在相關NVIDIA的產品與技術報道文章里,單純地只談硬件,畢竟人家反復在說自己“是家軟件公司”,以及軟件和生態才是上述硬件得以大賣的驅動力。

當然Computex主題演講中,黃仁勛也必然是把很大篇幅給到了為企業AI構建的軟件中間層和工具、在存儲互連相關軟件上所做的努力;以及CUDA為基礎的各種庫的:量子計算、通信、氣象、CAE、光刻、數據科學,還有AI。這些可以說是NVIDIA賴以生存,及發展各應用領域的根本(游戲:???)。我們在以往的文章里也談得挺多的了。

不過談生態也未必要說軟件:NVLINK就是一種生態,且能造成產品差異化。NVIDIA在今年的Computex上,又讓這種差異化更進一步了——雖然和本文要探討的AI計算機關系不是那么大——這部分我們后續還會做深入探討。

這次NVIDIA發布了名為“NVLink Fusion的定制ASIC支持。對一般人理解的NVIDIA AI而言,芯片與系統產品是完全固定的。而在NVLink Fusion IP的支持下,客戶可以加入自己的ASIC——可以是專門的AI加速器或其他類型的加速器。

因為目前我們對于NVLink Fusion實踐的商業模式,具體怎么操作仍然不是那么清楚,所以這部分完全引用老黃在發布會上說的話:

“我們構建了NVLink chiplet,作為數據交換使用緊靠你的(定制)芯片;會有融入半定制ASIC的IP。完成以后,它就能加入到計算板子、AI超算生態系統之中。”黃仁勛解釋說,“或者你可能想用自己的CPU——可能你已經為CPU構建起了很龐大的生態系統,然后期望把NVIDIA融入到生態中。現在我們就為你提供了這種可能性。”

“我們會把NVLink接口放到你的ASIC之中,連接到NVLink chiplet上——然后直接與Blackwell或者Rubin芯片相鄰。”“向每個人提供融合的靈活性和開放性。”如此一來,“AI基礎設施有屬于你自己的組成部分,也有NVIDIA GPU;還能用上NVLink基礎設施和生態,比如連接到Spectrum-X。”

由于要真正完成NVLink Fusion合作,光有NVIDIA的支持還不行,所以加入到這項服務中的參與者也不少,包括Alchip, AsteraLabs, Marvell, 聯發科, 高通, Cadence, Synopsys, 富士通等。“這里面就有半定制ASIC供應商;有可構建支持NVLink的CPU企業;還有像Cadence, Synopsys這樣,將我們的IP給到他們,他們再與客戶合作,將這些IP應用到客戶的芯片之中。”

雖然目前我們對于NVLink Fusion的全貌仍舊知之甚少,也不知道這么做涉及的操作難度如何、定制成本怎樣;但NVLink Fusion的發布還是令我們頗感意外的——NVIDIA竟然要支持不同廠商的CPU,乃至其他ASIC加速器…

這或許也是NVIDIA針對AI時代應用多樣化、業務個性化需求的響應策略——以及在應用導向的芯片設計、軟件定義時代的具體動作;但這無論如何都是深度擴展NVLink與NVIDIA AI生態的一步,乃至在客戶啟動合作后產生生態依賴與粘性的關鍵。

“如果你什么都從NVIDIA買,當然沒什么比這讓我更高興的了;但如果你從NVIDIA買一部分產品,我也會很高興。”(原句:Nothing gives me more joy than when you buy everything from NVIDIA. But it gives me tremendous joy if you just buy something from NVIDIA.)所以NVLink Fusion的動向絕對是值得我們后續再做關注的。

回到AI計算機角度,這就是基于NVIDIA先進技術為客戶定制AI計算機了。用老黃的話來說:“我們不是在建AI服務器和數據中心,我們是在建AI工廠”,“我們不僅是在構建下一代IT,更是在構建全新的行業。”

常被黃仁勛拿來與電力基礎設施相比的AI工廠之所以叫“工廠”,就是因為在NVIDIA看來“智能”或token,就是未來人類賴以生存的基礎設施。“NVIDIA不僅是一家科技企業,還是一家關鍵基礎設施企業。”這高度拔的…

每次我們看NVIDIA的發布會,都有種從GeForce源起到如今不同規模AI計算機鋪陳于世的感慨。“1993年初創公司之時,我還在想我們究竟能有多大的市場機會。當時我推測NVIDIA的業務機會會非常巨大,應該有3億美金,我們會變得很富有。”

而現在我們知道,從游戲顯卡到1800kg的巨型GPU,面向數據中心乃至到基建的高度,哪還是最初3億估算可比的呢?




主站蜘蛛池模板: 精品国产乱码久久久久久浪潮小说| 成人毛片无码一区二区三区| 国产精品欧美亚洲韩国日本久久| 亚洲国产日韩在线人高清| 高清人人天天夜夜曰狠狠狠狠| 久久婷婷五月综合色高清| 四库影院永久国产精品| 在教室伦流澡到高潮hnp视频 | 欧洲美熟女乱av亚洲一区| 男人用嘴添女人私密视频| 精品国产一区二区三区吸毒| 大伊香蕉精品一区视频在线| 欧美白丰满老太aaa片| 欧美最猛性xxxxx大叫| 青青草99久久精品国产综合| 久热这里只精品99国产6-99re视…| 午夜福利一区二区三区在线观看| 久久久橹橹橹久久久久高清 | 亚洲综合无码一区二区三区不卡| 国内精品久久久久久久影院| 精品精品国产欧美在线小说区| 人体内射精一区二区三区| 久久99国产精品二区| 久久久噜噜噜久久熟女aa片| 看国产一毛片在线看手机看| 688欧美人禽杂交狂配| 激情综合色五月丁香六月亚洲 | 人体内射精一区二区三区| 狠狠婷婷色五月中文字幕 | 人人妻人人澡人人爽超污| 色五月丁香五月综合五月4438| 亚洲精品国产一区黑色丝袜| 国产人妻丰满熟妇嗷嗷叫| 九九精品无码专区免费| 2020久久香蕉国产线看观看| 国产精品未满十八禁止观看| 国产精品a久久777777| 国产精品自在拍一区二区不卡| 97碰成人国产免费公开视频| 无码专区一va亚洲v专区在线| 亚洲色偷偷色噜噜狠狠99网|