一百五十億的需求巨大的缺口,AI圈里苦GPU久矣,瓶頸到底在哪?
GPU Utils 發布了一份關于英偉達GPU——主要是H100的研究報告,試圖梳理有關GPU供應和需求的相關問題。在這篇主要針對美國市場的報告中,我們看到了目前阻礙大模型和人工智能發展的關鍵瓶頸GPU短缺是如何形成和發展的。
總的來說,GPU瓶頸的出現原因是多方面的,環環相扣的復雜工藝制造流程,半導體周期,對稀缺資源的搶占與恐慌乃至未曾預料到的人工智能的突然爆發,都讓GPU算力變得無比緊張。
對人工智能的巨大需求也暴露了用于開發和部署人工智能模型的強大芯片的全球供應鏈的局限性。GPU 是一種關鍵的硬件,可幫助運行訓練和部署人工智能算法所涉及的無數計算。行業分析師表示,持續的 GPU 緊縮已經影響了大大小小的企業,包括人工智能行業的一些領先平臺,并且至少在一年或更長時間內可能不會出現有意義的改善。
不過樂觀地看,2024年這一瓶頸或許會有所緩解。
1、AI 圈里,苦 H100 GPU 久矣
OpenAI 聯合創始人兼職科學家 Andrej Karpathy 近日發文稱“目前硅谷最熱門的八卦,就是誰誰又買了多少塊 H100 GPU。”
特斯拉掌門人馬斯克曾經向整個科技行業發出警告,稱巨大的 GPU 危機即將來臨。今年 4 月,馬斯克曾發表推文說,“如今不管是人是狗,都在瘋狂購買 GPU。”而巨大的需求,勢必引發嚴重的供應短缺。時間快進到當下,每個人都想搞自己的 AI 產品和業務。面對這樣一場聲勢浩大的 AI 洪流,即使是像英偉達這樣的全球巨頭也難以及時制造出充足的 GPU 貨源。
市場對高性能 GPU(特別是英偉達 H100)的需求仍在猛增。截至 2023 年 8 月,科技行業正經受英偉達 H100 短缺的嚴重折磨。GPU 供應不足,正在對嚴重依賴其進行模型訓練和推理任務的 AI 廠商造成重大影響。
微軟最近的年度報告顯示了人工智能芯片可能長期短缺的最新跡象。該報告首次將 GPU 的可用性確定為投資者可能會遇到的的風險因素。
微軟寫道:“我們將繼續尋找和評估擴大數據中心位置和增加服務器容量的機會,以滿足客戶不斷變化的需求,特別是考慮到對人工智能服務不斷增長的需求?!?“我們的數據中心取決于許可的可建設土地、可預測的能源、網絡供應和服務器,包括 GPU 和其他組件?!?/span>
微軟對 GPU 的認可凸顯了計算能力的獲取如何成為制約 AI 發展的關鍵因素。該問題直接影響正在構建人工智能工具和產品的公司,并間接影響希望將該技術應用于自己目的的企業和最終用戶。
來自 OpenAI 公司的 Andrej Karpathy 表示,“目前硅谷最熱門的八卦,就是誰誰又買了多少塊 H100 GPU?!庇腥さ氖?,AWS Lambda CEO Stephen Balaban 也提到,“Lambda 將于今年年底之前上線數千塊 H100——如果您需要 64 塊或者更多的 H100,請提前私信預約?!睕]錯,這寶貝現在就是這么緊俏。
包括 Quora 公司 CEO Adam D’Angelo 和 OpenAI 創始人 Sam Altman 在內的多位 AI 領導者,也都表達了自己對于 GPU 短缺問題的擔憂。OpenAI 透露,GPU 供應不足阻礙了他們的短期計劃,包括模型微調和劃撥專用容量。也許這正是 OpenAI 目前拘囿于 GPT-4,無法進一步履行其大語言模型開發承諾的原因之一。
2、數十萬張缺口,一百五十億需求
每個想要在人工智能爆發中分一杯羹的人都需要GPU。準確地說,是英偉達的A100和H100,它們在訓練和推理大模型中扮演關鍵角色。如果要想要從頭訓練大模型,至少需要上千張A100或H100,而推理和微調大模型也至少需要儲存100張。
具體到每家的數量上,報告匯總了一些數據:GPT4在1萬到2.5萬塊A100上訓練,Meta有2.1萬塊A100,特斯拉有7000塊,Stability AI有5000塊,谷歌云大概有2.5萬塊H100,微軟Azure 有1萬到4萬塊,甲骨文可能也有同樣多的H100。值得一提的是,Azure的GPU基本都用來供應OpenAI的訓練了。
而根據馬斯克的說法,GPT5的訓練可能會用到3萬到5萬張H100,因此對未來的估計上,報告指出OpenAI可能需要5萬張H100,Meta至少需要2.5萬張(也有人說實際上需要10萬乃至更多),所有的云服務廠商,微軟、谷歌云和亞馬遜云以及甲骨文各需要3萬張,私有云服務商,比如剛剛融資的CoreWeave等總需求是10萬張,而像Claude的開發者Anthropic這樣的初創公司也都至少需要1萬張GPU。
另外,一些金融公司比如JP Morgan等也在部署A100或H100,因此總體上看,對H100的需求超過了43萬張。
這還是不算中國市場的情況,由于制裁原因,字節跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產品A800與H800,這一部分的需求沒有列入其中,其總額高達50億美金。
如果將這些數字相加,這就是目前英偉達面對的,總計規模高達200億美元的GPU需求。
3、瓶頸到底在哪里?
目前,H100的供應已經相當短缺,有傳言說微軟Azure和谷歌云的容量實際上已經快用完了,亞馬遜云也面對同樣的情況,傳言目前下單需要等數月乃至半年。
導致稀缺的原因是多方面的,最根本的是,GPU是一項極端復雜的技術,需要世界上最先進的生產工藝,而掌握這項工藝的工廠——臺積電,它的產能是有限的。
目前H100都由臺積電代工,使用4N工藝,也就是增強型5納米制程(相比之下A100使用的是N7),這幾乎是目前最復雜的芯片制作工藝,從開始生產到出售給客戶,H100中間經歷的生產、包裝和測試環節一共需要6個月左右,這就意味著對H100的生產需要英偉達和臺積電進行提前的布局,這在半導體行業來說是經常的事,但這一次英偉達和臺積電顯然都對H100需求出現了錯誤的判斷。
這很好理解,因為ChatGPT爆發是去年底的事,那時關于今年的生產計劃(至少是上半年的計劃)已經規劃好了,臺積電總體的生產能力是有限的,還需要在不同的大客戶之間分配,而產能爬坡也需要一個很長的過程——不要忘記生產H100這種GPU包含著全世界最復雜的工藝流程。
報告中特別指出生其中之一的瓶頸在于所謂CoWoS封裝(Chip on wafer on Substrate 芯片、晶圓、基板封裝),它目前的月產量是8000片,今年底有望提升至 11,000 片, 2024 年底則達到每月 14,500 至 16,600 片左右的水平,也就是說,想要提升一倍的產量,幾乎需要一年半的時間,這當然也是由于生產工藝異常復雜導致。
這直接影響了H100的生產,更何況并不是只有一家在使用CoWoS封裝工藝,英偉達的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片,又一次,臺積電的產能瓶頸限制了GPU的供應。
另外,H100所使用的HBM3系列內存也是一個生產難點。報告指出英偉達主要在使用SK海力士的內存,后者是這一領域的領軍者,特別是在HBM內存的研發上。HBM技術直接把內存堆棧放在GPU芯片上,實現了更高的帶寬和更低的功耗。今年4月20日,SK海力士宣布在全球率先研發出12層堆疊的HBM3內存,單顆容量達到24GB。內存容量越大,意味著GPU可以裝載下更大的模型,然而HBM3內存的生產過程也十分復雜,產量提升同樣困難重重,實際上另外幾家芯片大廠,比如三星和美光,都很難提升HBM內存的產量,據說SK海力士正在根據英偉達的要求增產,在剛剛過去的SIGGRAPH 2023 上,黃仁勛發布了GH200超級芯片的更新版, 采用了增強的HBM3E內存,這可以看作是英偉達在內存領域同供應商密切協作的一個例子。
4、GPU 稀缺性已成新的護城河
令事態雪上加霜的是,業界專家擔心當前 GPU 稀缺性可能引發自我強化的循環。換言之,這種稀缺性本身成為新的護城河,增強各方囤積 GPU 資源的心理、進一步加劇資源不足。也許這就是馬斯克當初囤積 GPU 的原因所在。下一代 H100 繼任者預計要到 2024 年底才會推出,這漫長的一年半將反復折磨用戶們脆弱的神經。
2010 年,我們使用黃仁勛的英偉達 GPU,證明無需任何無監督預訓練,即可通過簡單的反向傳播實現對深度前饋網絡的訓練。2011 年,我們的 DanNet 成為首個超級卷積神經網絡。而到如今,計算成本降低到當初的百分之一,但英偉達公司的市值則漲了 100 多倍……
獲取 H100 已經成為 AI 公司面臨的重大難題,也開始阻礙他們的正常運營,導致產品發布和模型訓練紛紛出現延遲。AI 熱潮帶來的對算力前所未有的需求也在加劇這種情況,導致 GPU 制造中使用的各種基本組件均告短缺。
英偉達一直在支持全球幾乎所有 AI 初創公司,而且似乎在為初創公司提供資助,幫助他們建立業務并購買 GPU。如今的英偉達已經在 GPU 市場上建立起壟斷地位,而其他參與方也不得不抱緊這條大腿。于是乎,滿足市場需求的責任將無人分擔,只能著落在英偉達自己身上。
但 GPU 的制造涉及復雜的工藝流程,需要各種關鍵組件。內存、互連速度(例如 InfiniBand)、緩存和緩存延遲等因素,在 GPU 的實際性能表現上起著至關重要的作用。其中任何一種組件的短缺,都有可能導致 GPU 生產延遲、進而引發整體供應不足。
