DeepSeek之后，國產芯片立功，AI訓練成本再“打八折”

上觀新聞 ? 2025年03月26日 ? AI

根據團隊公布的論文顯示，螞蟻推出的百靈大模型分為兩個版本——參數規模為168億（激活參數27.5億）的百靈Lite和參數規模為2900億（激活參數288億）的百靈Plus。

3月24日晚，DeepSeek-V3發布小版本升級，實測表現遠超預期。幾乎與此同時，另一款國產大模型螞蟻百靈憑借國產芯片訓練，實現同等性能突破，還將訓練成本再降20%，同樣引發市場關注。

根據團隊公布的論文顯示，螞蟻推出的百靈大模型分為兩個版本——參數規模為168億（激活參數27.5億）的百靈Lite和參數規模為2900億（激活參數288億）的百靈Plus。通過實驗表明，使用國產較低性能的GPU芯片，也能完成3000億參數的MoE（混合專家）大語言模型的訓練，而且性能與英偉達芯片訓練的同等參數模型相當。

記者在論文中看到，MoE大模型的訓練通常依賴于英偉達H100或H800等高性能GPU芯片，但過高的成本以及出口管制等問題，也限制了大模型的普及應用。因此，百靈團隊通過低性能GPU來訓練模型，通過模型訓練環境、優化策略、基礎設施、訓練過程、評估結果和推理等層面進行優化，用低成本來復現高性能模型。

其中，跨異構計算與分布式集群是百靈大模型的訓練創新之舉。據螞蟻相關人士介紹，跨異構計算與分布式集群主要解決基座芯片的混合性能問題，不同品牌和型號的芯片的結構和性能存在差異，協同處理數據需要通過分布式和跨異構計算來彌補芯片差異，這樣能更好地降低芯片成本，以免被同一種芯片產能限制。

值得一提的是，百靈團隊通過5種不同芯片配置的硬件來訓練百靈Plus，其中高性能硬件配置訓練1萬億token（詞元）的預訓練成本約為635萬元，而百靈調優過的低規格硬件的訓練成本將降至508萬元左右，降低約近20%的成本，而性能保持與通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當。不過相關人士也透露，這種測試結果是實驗環境中取得的，真實使用感受的差距仍有待驗證。

目前，百靈大模型已在生活服務、金融服務、醫療健康等場景落地應用。針對百靈大模型所取得的成績，螞蟻集團回應稱，未來將針對不同芯片持續調優，以降低AI應用成本，百靈Plus和百靈Lite兩款大模型將在日后開源。

DeepSeek之后，國產芯片立功，AI訓練成本再“打八折”

解放日報查睿

DeepSeek之后，國產芯片立功，AI訓練成本再“打八折”

名家 · 專欄

紫金財經網

友情鏈接