WAIC上的RDMA智能網(wǎng)卡，已成為國(guó)產(chǎn)AI算力突破的重要一環(huán)！

2025-08-14 來(lái)源：電子工程專輯原創(chuàng)文章

220

關(guān)鍵詞： AI基礎(chǔ)設(shè)施 RDMA智能網(wǎng)卡云脈芯聯(lián) RoCE技術(shù) 算力突破

生成式AI、Agentic AI的大熱，帶動(dòng)的不單是GPU、AI芯片的發(fā)展，當(dāng)我們談到AI數(shù)據(jù)中心就必談到“萬(wàn)卡”集群時(shí)，“互連”和“數(shù)據(jù)通信”的重要性也快速凸顯。單張顯卡或者AI加速卡已難以支持當(dāng)下巨量參數(shù)規(guī)模的AI大模型訓(xùn)練和推理，跨芯片、跨板卡、跨節(jié)點(diǎn)組建AI基礎(chǔ)設(shè)施成為算力增長(zhǎng)的主要方向，RDMA智能網(wǎng)卡作為網(wǎng)絡(luò)互聯(lián)的核心組件，成為算力突破的重要一環(huán)。

過(guò)去一年的媒體活動(dòng)上，不少企業(yè)都談到大模型訓(xùn)練時(shí)，GPU真正工作的時(shí)間有時(shí)只占1/3，大部分的時(shí)間都耗費(fèi)在了數(shù)據(jù)傳輸?shù)牡却稀Ｋ郧安痪?a style="box-sizing: border-box; margin: 0px; padding: 0px; background-color: transparent; color: rgb(51, 122, 183); text-decoration-line: none; outline: none; -webkit-tap-highlight-color: rgba(255, 0, 0, 0);">摩爾線程在WAIC（世界人工智能大會(huì)）媒體活動(dòng)上提出，AI工廠效率 = 加速計(jì)算通用性 × 單芯片有效算力 × 單節(jié)點(diǎn)效率 × 集群效率 × 集群穩(wěn)定性。

這里的“集群效率”顯然是指更低的GPU閑置率，尤其是數(shù)據(jù)傳輸?shù)男省９识泼}芯聯(lián)創(chuàng)始人兼CEO劉永鋒在WAIC上提出，整體算力 = 算力密度（GPU）× 算力規(guī)模（交換芯片） × 數(shù)據(jù)傳輸效率（網(wǎng)卡芯片）——這是個(gè)相對(duì)而言更具體的描述方式。

劉永鋒表示，“上下游眾志成城、取長(zhǎng)補(bǔ)短”，“通過(guò)融合創(chuàng)新”“把國(guó)產(chǎn)化做起來(lái)”，實(shí)現(xiàn)“算力突破”。這也是國(guó)內(nèi)所有涉足AI基礎(chǔ)設(shè)施搭建的企業(yè)的共識(shí)。

PARTNER CONTENT

更多>

電源設(shè)計(jì)技術(shù)秘籍大公開！快來(lái)關(guān)注電源設(shè)計(jì)小貼士欄目！

德州儀器2025-08-13

我們?cè)赪AIC之上就看到了云脈芯聯(lián)的“AI時(shí)代智能算力互聯(lián)網(wǎng)絡(luò)解決方案”，包括智能網(wǎng)卡（SmartNIC）和DPU產(chǎn)品。云脈芯聯(lián)很大程度上是可以代表國(guó)產(chǎn)NIC、DPU芯片及解決方案的最高水平的——其YSA-100芯片產(chǎn)品及系列智能網(wǎng)卡/DPU產(chǎn)品就已經(jīng)在頭部互聯(lián)網(wǎng)、基礎(chǔ)設(shè)施服務(wù)商、運(yùn)營(yíng)商等各行業(yè)實(shí)現(xiàn)量產(chǎn)出貨，客戶包括浪潮、新華三、上海儀電、浙江銀盾云、中國(guó)移動(dòng)等，據(jù)說(shuō)客戶覆蓋還在穩(wěn)步增長(zhǎng)。

本文就以圖集的形式來(lái)看看云脈芯聯(lián)的現(xiàn)有產(chǎn)品，及其所反映的國(guó)產(chǎn)智能網(wǎng)卡與DPU發(fā)展現(xiàn)狀。

▲ 云脈芯聯(lián)YSA-100網(wǎng)絡(luò)芯片，“支持高性能網(wǎng)絡(luò)和DPU場(chǎng)景的裸金屬、虛擬化卸載（offload）加速，適用于算力基礎(chǔ)設(shè)施智算中心網(wǎng)絡(luò)、存儲(chǔ)和云計(jì)算等各類應(yīng)用場(chǎng)景”。YSA-100是一顆ASIC架構(gòu)的網(wǎng)絡(luò)芯片，云脈芯聯(lián)在去年的新聞稿中說(shuō)，這顆芯片已經(jīng)于2024年量產(chǎn)，是“國(guó)內(nèi)首顆支持400Gbps吞吐能力的RDMA（直接內(nèi)存訪問(wèn)）高性能網(wǎng)絡(luò)芯片”；且這顆芯片已經(jīng)在多個(gè)智算中心落地應(yīng)用。

▲ metaConnect-400S，metaConnect系列在云脈芯聯(lián)的產(chǎn)品定位為“AI NIC”。 metaConnect-400S的具體定位是“高性能AI網(wǎng)卡”，尤其表現(xiàn)在單口400GbE吞吐速率，“提供具有包噴灑多路徑能力的高性能RDMA網(wǎng)絡(luò)能力”，且“與各CPU和GPU產(chǎn)品均有優(yōu)秀的兼容能力”。

面向智算中心時(shí)，“metaConnect-400S提供1x400GbE網(wǎng)絡(luò)接入能力，支持多路徑負(fù)載均衡和亂序重排能力，基于Credit授權(quán)的擁塞控制和可編程擁塞控制算法能力，有效提升AI計(jì)算通信效率，對(duì)比業(yè)內(nèi)主流產(chǎn)品通信性能提升約5%。”這款產(chǎn)品在我們看來(lái)也是真正能夠體現(xiàn)以太網(wǎng)用于AI大規(guī)模集群networking的潛力和價(jià)值的。

▲ metaConnect-400，相較前者的主要差異是，這是個(gè)支持2x200GbE的AI NIC，“增值能力實(shí)現(xiàn)單QP（queue pair）雙平面網(wǎng)絡(luò)400Gbps吞吐性能”——使用一個(gè)QP同時(shí)在兩個(gè)物理網(wǎng)絡(luò)平面上達(dá)成400Gbps總吞吐量。

▲ metaScale-200S智能網(wǎng)卡——相較前面的metaConnect系列，云脈芯聯(lián)定義metaScale系列產(chǎn)品為“高性能智能網(wǎng)卡”。200S是實(shí)現(xiàn)了單口200GbE的、面向云計(jì)算數(shù)據(jù)中心高性能存儲(chǔ)網(wǎng)絡(luò)和智算中心AI計(jì)算網(wǎng)絡(luò)打造的智能網(wǎng)卡產(chǎn)品，同樣提供高性能RoCEv2網(wǎng)絡(luò)能力。

▲ 同為metaScale-200S智能網(wǎng)卡，OCP 3.0接口版。

▲ metaScale-200，2x100GbE吞吐能力，PCIe標(biāo)準(zhǔn)形態(tài)；

▲ 同為metaScale-200，OCP 3.0標(biāo)準(zhǔn)接口版；

▲ metaScale-50，25GbE智能網(wǎng)卡，“面向現(xiàn)代數(shù)據(jù)中心，具備高性能存儲(chǔ)網(wǎng)絡(luò)互聯(lián)能力”，“提供優(yōu)異的網(wǎng)絡(luò)互聯(lián)收發(fā)性能，成熟的平臺(tái)兼容性，豐富的軟件生態(tài)，以及靈活的解決方案能力”。

▲ 基于YSA-100芯片的metaVisor-200，云脈芯聯(lián)稱其為AI DPU。介紹中提到，這款metaVisor-200是面向人工智能智算中心AI計(jì)算網(wǎng)絡(luò)打造的2x100GbE高性能AI DPU產(chǎn)品。

“支持云盤啟動(dòng)、VPC網(wǎng)絡(luò)卸載加速、RoCEv2 Overlay和RDMA統(tǒng)一納管運(yùn)維監(jiān)控的能力，為未來(lái)智算中心提供快速發(fā)放、租戶網(wǎng)絡(luò)隔離和彈性部署等靈活解決方案”。

▲ 云脈芯聯(lián)展位擺了一臺(tái)來(lái)自新華三的服務(wù)器，算力卡則是來(lái)自國(guó)產(chǎn)GPU；中間的四張網(wǎng)卡就來(lái)自云脈芯聯(lián)——這是云脈芯聯(lián)的智能網(wǎng)卡/DPU在AI算力領(lǐng)域落地的形式之一。

劉永鋒在演講中提到國(guó)產(chǎn)算力突破的兩個(gè)方向，其一是“提前布局、因地制宜”——比如前文提到云脈芯聯(lián)在RoCE上的布局。 “在更大規(guī)模、更高帶寬場(chǎng)景下，以太網(wǎng)是更有潛力的。過(guò)去RoCE在AI應(yīng)用上可能存在一些不成熟的地方——但如果能提前布局投入對(duì)RoCE的優(yōu)化，今天會(huì)看到以太網(wǎng)真正的價(jià)值。現(xiàn)在很多大廠已經(jīng)在投入RoCE。”“它是能夠?qū)崿F(xiàn)AI算力突破很好的技術(shù)。”

RoCE (RDMA over Converged Ethernet) 也就是通過(guò)以太網(wǎng)做RDMA，在不需要操作系統(tǒng)、CPU介入的情況下，就直接訪問(wèn)內(nèi)存，得以實(shí)現(xiàn)超低延遲、高吞吐，以及降低CPU的開銷。它對(duì)諸如HPC、AI訓(xùn)推、大規(guī)模存儲(chǔ)系統(tǒng)這類數(shù)據(jù)密集型應(yīng)用價(jià)值甚大。

劉永鋒提到，“在芯片研發(fā)方面提前布局RoCE，經(jīng)過(guò)持續(xù)的技術(shù)創(chuàng)新，在AI網(wǎng)絡(luò)需要更大規(guī)模和更高帶寬的情況下，云脈芯聯(lián)200Gbps和400Gbps高性能智能網(wǎng)卡已逐步建立起差異化的競(jìng)爭(zhēng)優(yōu)勢(shì)，具有很強(qiáng)的爆發(fā)力，成為國(guó)產(chǎn)網(wǎng)絡(luò)在AI基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)突破的基礎(chǔ)。”

其二是上下游配合，“眾志成城、取長(zhǎng)補(bǔ)短”。比如上述產(chǎn)品的宣傳文案大多都提及 “具備卓越的多平臺(tái)兼容性，與各CPU與GPU有優(yōu)秀的兼容能力”，包括對(duì)一眾國(guó)產(chǎn)CPU、GPU和操作系統(tǒng)的支持。“國(guó)產(chǎn)交換芯片和國(guó)產(chǎn)網(wǎng)卡芯片能夠深度協(xié)同，就可以形成靈活的最優(yōu)解決方案，其中網(wǎng)絡(luò)互聯(lián)芯片成為最核心的一環(huán)。”

WAIC上，云脈芯聯(lián)展位工作人員告訴我們，“云脈芯聯(lián)已與展館中的GPU廠商，和大多數(shù)CPU及相關(guān)的應(yīng)用廠商成為合作伙伴。”“與國(guó)內(nèi)部分頭部互聯(lián)網(wǎng)廠商、云基礎(chǔ)設(shè)施服務(wù)商和通信運(yùn)營(yíng)商均有合作——不僅是因?yàn)楣?yīng)鏈安全，國(guó)內(nèi)芯片廠商也能夠根據(jù)客戶需求去為他們提供更好的解決方案；當(dāng)然產(chǎn)品的性能本身需要達(dá)到要求。”

劉永鋒則舉例提及在DeepSeek發(fā)布之后，云脈芯聯(lián)與其他合作伙伴多方配合，去適配DeepEP（一個(gè)特別面向MoE和EP – expert parallelism的通信庫(kù)），實(shí)現(xiàn)“端到端拉通”。“上下游一起努力把國(guó)產(chǎn)化做起來(lái)。”在半導(dǎo)體制造工藝、技術(shù)能力受限的情況下，通過(guò)與AI基礎(chǔ)設(shè)施其他參與者的適配、協(xié)作，才能達(dá)成真正意義上的“算力突破”。

相關(guān)文章

行業(yè)動(dòng)態(tài)

蘋果秋季新品發(fā)布會(huì)：iPhone 17 Pro/Air、Apple Watch 11等一次看

英偉達(dá)發(fā)布新GPU Rubin CPX，專為長(zhǎng)上下文AI推理設(shè)計(jì)

《財(cái)富》發(fā)布最受贊賞中國(guó)公司榜華為、DeepSeek等上榜

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)