生成式AI熱潮帶動邊緣計算需求,國產企業努力在AI芯片突圍
根據市場研究公司 Gartner 的最新預測,2023 年全球用于 AI 的硬件銷售收入預計將同比增長 20.9%,達到 534 億美元(當前約 3887.52 億元人民幣)。
Gartner 表示,生成式 AI 的發展和各種基于 AI 的應用在數據中心、邊緣基礎設施和端點設備中的廣泛使用,需要部署 GPU 和“優化的半導體設備”,這將推動 AI 芯片的生產和部署。
Gartner 預計,AI 半導體收入將在預測期內繼續保持兩位數增長,2024 年將增長 25.6%,達到 671 億美元(IT之家備注:當前約 4884.88 億元人民幣),到 2027 年,AI 芯片收入預計將比 2023 年的市場規模增長一倍以上,達到 1194 億美元(當前約 8692.32 億元人民幣)。
Gartner 表示,隨著企業中 AI 工作負載使用的成熟,許多更多的行業和 IT 組織將部署包含 AI 芯片的系統。消費電子市場方面,Gartner 估計,到 2023 年底,用于設備的 AI 啟用的應用處理器的價值將達到 12 億美元(當前約 87.36 億元人民幣),而 2022 年為 5.58 億美元(當前約 40.62 億元人民幣)。
ChatGPT催生算力新機遇
云邊端AI芯片熱戰大模型
ChatGPT掀起生成式AI熱潮后,大算力芯片迎來前所未有的發展機遇,新的挑戰也接踵而來。
高通AI產品技術中國區負責人萬衛星分享了高通對生成式AI未來發展趨勢的觀察:隨著云端處理生成式AI的成本不斷提升,未來云經濟將難以支撐生成式AI的規模化發展。此外,基礎模型正在向多模態擴展,模型能力越來越強大,而垂直領域模型的參數量也正在變得越來越小。未來,豐富的生成式AI模型將在終端側運行,讓大眾享受到生成式AI帶給生活、工作、娛樂上的變革。
NVIDIA解決方案與架構技術總監張瑞華認為:“生成式AI和大模型是人工智能目前最重要的領域,也是對算力資源需求最高的人工智能應用。由于模型的訓練和推理的計算范式都發生了變革,所以現實算力資源和模型發展所需要的理想算力資源之間還有很大的差距。隨著用戶空間的巨量增長,還需考慮成本、實時性等問題。這是生成式AI和大模型時代所面臨的計算挑戰。”
芯片巨頭AMD在MI Instinct GPU方面擁有大量的技術積累以及基于CDNA3的架構創新。AMD人工智能事業部高級總監王宏強談道,AMD在單個GPU能做到上千T的浮點算力規模,通過多節點橫向擴展,更是能達到每秒百億億次浮點計算能力(EFLOPS),并提供額外的超大內存容量及帶寬,可實現700億參數級大模型在單個GPU上的部署,并達到更高的TCO(總擁有成本)。
王宏強也特別強調了易用AI軟件以及強大的開放軟件生態的重要性,它是釋放這些創新硬件性能的關鍵。AMD通過統一AI軟件實現跨平臺AI部署,以開放和模塊化的方式構建軟件解決方案,從而擁抱更高層次的抽象,并與最重要的生態系統(PyTorch, ONNX, Triton HuggingFace等)合作對接推動開箱即用的用戶體驗。
云端AI芯片獨角獸企業燧原科技也在積極備戰大模型算力需求。其創始人兼COO張亞林談道,參數量高達數千億的大模型,依賴分布式計算、更大的內存容量和帶寬、更高算力、更實惠的成本或性價比,對AI芯片生態提出更高要求。
他打了一個形象的比喻:Transformer正通過統一的大模型,濃縮出一個“大樹型”的AIGC平臺生態,算力是“樹根”,大模型是“樹干”,行業模型庫是“樹枝”,應用是“樹葉”。相比原來碎片化的CV、NLP中小模型,大模型的“大樹型”生態的算力需求更加明確和聚焦。對此,他倡導聯合生態伙伴,通過統一的大模型技術生態棧解決算力瓶頸問題。
奎芯科技聯合創始人兼副總裁王曉陽談道,大模型推理的關鍵瓶頸在于內存帶寬,目前主流的AI大算力芯片均采用HBM作為內存首選,采用HBM離不開先進封裝,在散熱、工藝、產能等方面均受到一定限制。據他分享,采用基于UCle接口的AI大算力芯片架構可突破HBM的互聯的局限。
作為存算一體AI大算力芯片企業的代表,億鑄科技的創始人、董事長兼CEO熊大鵬分享道,AI應用進入2.0時代, 一大突出問題是大模型帶來巨量數據搬運,大算力芯片的競爭核心會逐漸轉向破除“存儲墻”,存算一體超異構成為“換道超車”的可行路徑。
端側和邊緣側的芯片企業同樣看到大模型的機遇與需求。面向日益增長的算力需求,在邊緣和中心側,鯤云科技用可重構數據流技術路徑來解決大模型算力需求攀升的問題,通過芯片底層架構革新,將芯片利用率大幅提升,這種方法能滿足架構內海量數據的計算需求,提供高性能、高性價比、低延時的實時處理。
高通萬衛星談道,與云端相比,終端側跑大模型擁有諸多優勢,包括成本、能耗、可靠性、時延和性能、隱私和安全,以及個性化等。而終端側AI與云端AI相互配合的混合AI架構,是讓生成式AI實現全球規模化擴展的關鍵。“目前我們能夠支持參數超過10億的模型在終端上運行,未來幾個月內超過100億參數的模型將有望在終端側運行。”他分享說,高通不斷提升端側AI能力,從而提高終端支持大模型的參數閾值,讓更多云端生成式AI用例向邊緣側和端側遷移,這將真正釋放生成式AI的潛力。
IC大廠加速布局AI芯片
有初創公司表示,已感受到來自聯發科、聯詠和瑞昱等IC設計廠商的壓力,這些廠商均在加緊開發AI芯片。消息人士稱,AI處理器針對不同的應用有不同的等級,邊緣AI芯片的性能要求已能夠與中高端智能手機AP(應用處理器)相媲美。
意法半導體(ST)推出了邊緣AI加速微處理器——第二代STM32 MPU。該處理器提高了工業和物聯網邊緣應用的性能和安全性,預計將于2024上半年批量生產。
意法半導體執行副總裁Ricardo De Sa Earp表示:“新的微處理器進一步加大了公司在應用處理器方面的投資,將64位內核與邊緣AI加速、高級多媒體功能、圖形處理和數字連接相結合。”
同樣瞄準邊緣AI芯片領域的大廠還有英飛凌。日前,英飛凌宣布收購初創公司Imagimob,后者是一家邊緣設備機器學習解決方案提供商,專注于邊緣AI市場。公告提到,通過此次收購,英飛凌將顯著補強其AI產品。
除了芯片端,大模型玩家也在加速布局移動/邊緣端的相關應用。日前舉辦的谷歌I/O大會上,谷歌宣布其PaLM2大模型的最輕量化版本Gecko可在移動端運行,開拓了AI模型在邊緣側推理的場景。對此,民生證券表示,在邊緣側推理的輕量化大語言模型有望帶動邊緣AI計算成長,加速邊緣硬件市場更新迭代。
事實上,隨著以ChatGPT為代表的AI大模型的衍生應用不斷推出,許多終端開始實現智能化體驗的升級,從而產生了海量的終端數據分析處理需求。在此背景下,邊緣端AI應運而生。此外,邊緣算力還具備低時延、高安全、隱私性較好等優勢,符合未來AIGC時代,對于AI創作所有權及隱私權的要求。
在本月初DIGITIMES的相關報道中,有業內人士指出,AI應用的關鍵在于邊緣化。ChatGPT等文本大模型以及MidJourney、Stable Diffusion等文生圖大模型的相關功能,如果能夠直接在邊緣運算中實現,其帶來的芯片商機就會非常龐大。
國產邊緣SoC芯片即將量產
8月28日,在“第三屆滴水湖中國RISC-V產業論壇”上,國內知名人工智能技術廠商云天勵飛介紹了其新一代邊緣大算力AP級邊緣SoC芯片Edge10V,目前已經接近量產狀態。
作為國內首批人工智能(AI)技術廠商,成立于2014年的云天勵飛最初是主攻AI算法,通過攝像頭、端云協同的架構來做海量圖片的分析與處理,因此算法的泛化能力相對較弱,所以對于設備的調試要求就比較高,需要到各地去幫助客戶調試,這在當時耗費了云天勵飛很大的一部分精力。這也促使了云天勵飛開始來做自研芯片,將自己的AI算法芯片化。
2018年,云天勵飛就成功推出了自研的第一代面向嵌入式端的邊緣AI芯片DeepEye1000,并且在當年8月一次性流片成功,在2019年正式商用。DeepEye1000基于國產高性能RISC-V CPU內核IP,內置了自主產權的神經網絡處理器,支持靈活可編程計算流,搭載云天勵飛自主研發的深度定制指令集,可以實現高性能、低功耗的CNN網絡模型推理計算加速,滿足視覺AI算法實時性處理的性能要求。
從2015年至今,云天勵飛已經完成了三代指令集架構,4代神經網絡處理器架構的研發。2022年,云天勵飛自研的新一代邊緣AI SoC芯片——Edge10V流片成功,今年開始在做產品化相關的工作,目前已經接近準量產狀態。
據介紹,Edge10V是一款采用自主可控的純國產工藝,內置國產RISC-V內核(主頻1.2GHz),內置云天勵飛第四代自主知識產權 NPU NNP400T(int8算力可達12Tops)的AI SoC芯片,其中還包括GPU和MM,支持雙顯等各類外設,支持邊緣CV大模型的推理部署,因而可以獨立完成各邊緣計算場景的任務。
“ Edge10V的芯片實際上是系列化的芯片。有兩大特色:1、支持Chiplet多芯粒擴展、支持大算力。作為國內首顆D2D高速互聯Chiplet商用芯片,滿足國產Chiplet UCIE標準。2、純國產AI芯片。我們采用了國產的工藝、國產的封裝,由國內工廠完成國內生產制造交付。作為一款AP級邊緣AI SoC,Edge10V不僅可以支持AI計算,也可以支持雙千兆網口,支持不同傳感器的接入。另外,我們是有X8 PCle3.0接口可以支持不同的外設擴展。在CPU的部分,我們也是選擇了帶矢量處理器的這么一個RISC-V CPU。”云天勵飛芯片BD總監張福林進一步解釋道。
另外,云天勵飛也為Edge10V配套了相對應的軟件棧,其中核心的一個部分就是與異構的芯片架構有匹配的軟件設計,可以很好的去做一些調度。另外,對于計算資源,也能通過合理的分配到不同的硬件加速器里面去運行。同時,Edge10V還有比較豐富的中間件的支持。包括:機器人行業用的比較多的ROS、ROS2等相關的東西。可以支持比較好的面向不同場景的邊緣計算應用,以及低速自動駕駛方向的機器人應用。
在AI工具鏈、模型的支持方面,Edge10V可以支持Pytorch/Onnx/Caffe等主流模型框架,支持CNN/RNN/Transformer/GNN等深度學習網絡模型。
在商業模式方面,云天勵飛不僅可以直接對外提供Edge10V芯片,同時也可以對外提供一些列的模組產品,包括針對嵌入式設備的Mini PCle加速卡,可廣泛應用于AIoT邊緣視頻、移動機器人等場景。也可以應用到一些邊緣服務器的產品,做一些高密視頻的推理。
