紫金財經-聚焦最頭條的科技行業新媒體

        DeepSeek之后,國產芯片立功,AI訓練成本再“打八折”

        根據團隊公布的論文顯示,螞蟻推出的百靈大模型分為兩個版本——參數規模為168億(激活參數27.5億)的百靈Lite和參數規模為2900億(激活參數288億)的百靈Plus。

        3月24日晚,DeepSeek-V3發布小版本升級,實測表現遠超預期。幾乎與此同時,另一款國產大模型螞蟻百靈憑借國產芯片訓練,實現同等性能突破,還將訓練成本再降20%,同樣引發市場關注。



        根據團隊公布的論文顯示,螞蟻推出的百靈大模型分為兩個版本——參數規模為168億(激活參數27.5億)的百靈Lite和參數規模為2900億(激活參數288億)的百靈Plus。通過實驗表明,使用國產較低性能的GPU芯片,也能完成3000億參數的MoE(混合專家)大語言模型的訓練,而且性能與英偉達芯片訓練的同等參數模型相當。



        記者在論文中看到,MoE大模型的訓練通常依賴于英偉達H100或H800等高性能GPU芯片,但過高的成本以及出口管制等問題,也限制了大模型的普及應用。因此,百靈團隊通過低性能GPU來訓練模型,通過模型訓練環境、優化策略、基礎設施、訓練過程、評估結果和推理等層面進行優化,用低成本來復現高性能模型。



        其中,跨異構計算與分布式集群是百靈大模型的訓練創新之舉。據螞蟻相關人士介紹,跨異構計算與分布式集群主要解決基座芯片的混合性能問題,不同品牌和型號的芯片的結構和性能存在差異,協同處理數據需要通過分布式和跨異構計算來彌補芯片差異,這樣能更好地降低芯片成本,以免被同一種芯片產能限制。



        值得一提的是,百靈團隊通過5種不同芯片配置的硬件來訓練百靈Plus,其中高性能硬件配置訓練1萬億token(詞元)的預訓練成本約為635萬元,而百靈調優過的低規格硬件的訓練成本將降至508萬元左右,降低約近20%的成本,而性能保持與通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當。不過相關人士也透露,這種測試結果是實驗環境中取得的,真實使用感受的差距仍有待驗證。



        目前,百靈大模型已在生活服務、金融服務、醫療健康等場景落地應用。針對百靈大模型所取得的成績,螞蟻集團回應稱,未來將針對不同芯片持續調優,以降低AI應用成本,百靈Plus和百靈Lite兩款大模型將在日后開源。



        DeepSeek之后,國產芯片立功,AI訓練成本再“打八折”



        解放日報 查睿






        亚洲精品自产拍在线观看| 亚洲精品无码中文久久字幕| 亚洲第一综合天堂另类专| 亚洲国产精品yw在线观看| 久久久久亚洲av无码专区导航| 亚洲αv久久久噜噜噜噜噜| 亚洲国产综合无码一区 | 亚洲AV无码精品色午夜果冻不卡| 亚洲午夜未满十八勿入网站2| 国产美女亚洲精品久久久综合| 亚洲午夜日韩高清一区| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 亚洲伦理一区二区| 久久丫精品国产亚洲av| 亚洲理论在线观看| 在线综合亚洲中文精品| 亚洲午夜精品久久久久久app| 亚洲乱码中文字幕在线| 在线亚洲v日韩v| 亚洲人成网站观看在线播放| 国产AV无码专区亚洲AV手机麻豆| 亚洲中文字幕无码永久在线| 亚洲国产一成人久久精品| 亚洲国产精品久久久久| 亚洲黄色在线观看视频| 亚洲一区二区三区四区视频| 亚洲欧美一区二区三区日产| WWW亚洲色大成网络.COM| 亚洲精品尤物yw在线影院| 中文字幕亚洲乱码熟女一区二区| 亚洲国产精品无码专区在线观看 | 亚洲AV人无码综合在线观看| 亚洲视频手机在线| 中中文字幕亚洲无线码| 色噜噜噜噜亚洲第一| 色噜噜亚洲精品中文字幕| 亚洲电影国产一区| 亚洲福利视频网站| 亚洲综合伊人制服丝袜美腿| 亚洲人成未满十八禁网站| 无码欧精品亚洲日韩一区夜夜嗨|