DeepSeek整頓AI圈，GPU增長焦慮如何解？

2025-02-17 來源：電子信息產業網

950

價格親民的DeepSeek-V3及R1分別在2024年12月和2025年1月上線，隨之而來，全球最大數據中心GPU供應商英偉達的股價和市值應聲下挫。根據Stock Analysis數據，以月為單位，英偉達市值在2024年12月和2025年1月分別下降2.86%和10.59%。當地時間1月27日，英偉達股價較上一個交易日（1月24日）下跌近17%，市值蒸發5920億美元。

盡管2月英偉達市值回調，其股市際遇仍值得警醒。2024年以來，資本市場對英偉達信心滿滿，上一次市值跌去雙位數，還是2023年9月。去年11月，英偉達一度取代蘋果成為全球市值第一的上市公司。這份信心，為何出現了動搖？

在OpenAI推出的ChatGPT卷起AIGC浪潮之初，大模型的參數規模與GPU的集群規模深度綁定。Omdia分析稱，微軟在2024年購買了48.5萬塊英偉達Hopper GPU，OpenAI o1大模型就是在微軟Azure的AI基礎設施訓練。Meta在2022年構建了16000塊英偉達A100組成的算力集群，以支持Llama和Llama2大模型的發展，又在2024年3月宣布建設兩個由24576塊英偉達H100 GPU組成的集群，以訓練Llama3。

如此高昂的訓練成本，對于大模型廠商的ROI（投資回報率）是一個巨大的考驗。有報道稱，OpenAI預計2024年營收37億美元，虧損50億美元。紅杉資本投資人曾估計，2023年人工智能行業在用于訓練先進人工智能模型的英偉達芯片上花費了500億美元，但僅帶來30億美元的收入。因而，對于大模型開發商來說，除了拓展服務場景以提升盈利能力，如何降低大模型的訓練和部署成本同樣關鍵。

這也是為什么DeepSeek-V3一經推出，就備受市場青睞——它讓業界看到了大模型訓練從“GPU堆料”走向“精耕細作”的可能性。

具體來看，6710億參數的DeepSeek-V3在配備2048塊英偉達H800 GPU的集群上訓練，整個訓練流程用時278.8萬個H800 GPU小時，總成本為557.6萬美元（按照每GPU小時2美元的租用價格計算）。在GPU用量、訓練用時、算力成本上，較同等性能的閉源模型大幅縮減。

之所以能用如此少量的計算資源完成大規模參數量的訓練，得益于DeepSeek團隊對算法、訓練框架和硬件的優化協同。

從架構來看，DeepSeek-V3沿用了在DeepSeek-V2進行驗證的多頭潛在注意力（MLA）和DeepSeek MoE進行具有成本效益的訓練。多頭潛在注意力機制通過將鍵值（KV）緩存壓縮為潛在向量，顯著降低了計算成本，加快了推理速度并提高了吞吐量。同時，專家混合（MoE）架構通過稀疏計算實現高效推理。

在訓練精度上，Deepseek-V3支持FP8計算和存儲，在加快訓練速度的同時，減少了對GPU內存的使用。

在訓練框架上，Deepseek-V3團隊打造了HAI-LLM框架，并進行了細致的工程優化。首先是設計了DualPipe（雙管道）算法以實現高效的管道并行，并實現了計算和通信重疊（而不是按照串行模式，完成計算再進行通信），從而解決了跨節點專家并行帶來的巨大通信開銷問題。其次是開發了跨節點全對全通信內核，使InfiniBand（IB）和NVLink的通信充分重疊，僅需20個流式多處理器就能充分利用IB和NVLink的帶寬。其三是優化了內存占用，在不使用成本高昂的張量并行的情況下，也能夠訓練DeepSeek-V3。

訓練成本的壓縮，使DeepSeek能夠提供遠低于其對標的閉源模型（DeepSeek-V3性能比肩GPT-4o, DeepSeek-R1性能對標OpenAI o1）的API服務價格。

記者計算得知，DeepSeek-V3的每百萬輸入tokens價格約為GPT-4o的5.5%（緩存命中）/11%（緩存未命中），每百萬輸出tokens價格約為GPT-4o的11%。DeepSeek-R1的每百萬輸入tokens價格約為OpenAI o1的1.8%（緩存命中）/3.7%（緩存未命中），每百萬輸出tokens價格約為OpenAI o1的3.7%。

DeepSeek與對標的OpenAI模型API價格對比

undefined

來源：中國電子報根據DeepSeek、OpenAI官網報價整理，以2月14日匯率為準

GPU規格和用量降下來了，大模型價格也便宜了，這對于產業界來說是一個好消息，對于尖端GPU廠商來說，則帶有一些不確定性。

首先，云廠商和數據中心廠商在過去兩年“買爆”英偉達，很大程度上是為大模型的訓練、部署和運行提供基礎設施，可一旦MoE、小模型等更具成本效益的模型流行開來，頭部買家能否持續現有的GPU采購量，要打一個問號。

其次，大模型訓練使用的GPU向來由英偉達獨占鰲頭，但若算力投入不再高企，其他廠商也有了分一杯羹的機會。目前，龍芯中科、昆侖芯、燧原科技、華為昇騰、海光信息、天數智芯、奕斯偉等多家國產芯片企業宣布與DeepSeek適配。

再次，降低訓練開銷的可能性，也讓廣大GPU買家開始將目光轉向其他架構——尤其是自家研發的ASIC芯片，以增加硬件收入、增強云服務的整體性并提升客戶粘性。

以全球最大的云服務廠商亞馬遜AWS為例，2月12日，亞馬遜AWS宣布已于1月上線DeepSeek系列大模型，用戶可以使用亞馬遜云科技自研芯片Trainium和Inferentia通過Amazon EC2或者Amazon SageMaker部署DeepSeek-R1蒸餾模型，規模從15億參數的Qwen蒸餾模型到706億參數的Llama蒸餾模型不等。亞馬遜自研芯片的一個重要目標就是降低訓練成本，與基于GPU的同類實例相比，Trainium芯片支持的Amazon EC2Trn1實例，可節省50%的訓練成本。

OpenAI也在近期再傳自研芯片的消息。據悉，OpenAI將在年內完成首款自研芯片設計，計劃采用臺積電3nm工藝制造。

此外，LPU（語言處理器）受到市場關注，采用RISC-V指令集的AI SoC也實現了與DeepSeek的適配。

當然，也有觀點認為，DeepSeek對算力產業是長期利好。

比如，在英偉達市值蒸發5920億美元的那個交易日，微軟CEO薩提亞·納德拉（Satya Nadella）在社交媒體平臺表示：“杰文斯悖論再次應驗！隨著人工智能變得更高效、更易用，我們會看到其使用量急劇飆升，它會變成一種我們怎么都用不夠的大眾資源。”

杰文斯悖論是一種經濟學理論，主張當技術進步提高了資源使用的效率，即減少資源使用的數量，但成本降低導致需求增加，令資源消耗的速度不減反增。

這套邏輯，當然也適用于算力。既然DeepSeek等MoE模型降低了單個大模型訓練所需的算力開銷，使大模型更具性價比，就會加速大模型的落地開花。如果各行各業部署大模型的積極性提升，從長遠來看，對算力的整體需求就有較為充足的上升空間，自然利好GPU等算力芯片的發展。

只是這杯羹，不一定再由英偉達的尖端GPU獨占，算力需求帶來的利潤洪流，也未必再被CUDA這道大壩截留。

在DeepSeek-V3的技術報告中，DeepSeek團隊向人工智能硬件供應商提出了芯片設計建議，包括提高張量核心中FP8通用矩陣乘法的累加精度、支持分塊和塊級量化等。對于芯片企業來說，除了持續提升芯片性能，能夠與大模型開發團隊進行緊密協作、將工程化做好做精，會更有機會在“效率至上”的訓練競賽中站到前排。

行業動態

華為“四芯片封裝”專利曝光，或用于下一代 AI 芯片昇騰 910D

第一季度全球智能手機產量達2.89億部

因存在安全隱患，羅馬仕召回491745臺移動電源

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產