紫金財經(jīng)-聚焦最頭條的科技行業(yè)新媒體

        DeepSeek之后,國產(chǎn)芯片立功,AI訓練成本再“打八折”

        根據(jù)團隊公布的論文顯示,螞蟻推出的百靈大模型分為兩個版本——參數(shù)規(guī)模為168億(激活參數(shù)27.5億)的百靈Lite和參數(shù)規(guī)模為2900億(激活參數(shù)288億)的百靈Plus。

        3月24日晚,DeepSeek-V3發(fā)布小版本升級,實測表現(xiàn)遠超預期。幾乎與此同時,另一款國產(chǎn)大模型螞蟻百靈憑借國產(chǎn)芯片訓練,實現(xiàn)同等性能突破,還將訓練成本再降20%,同樣引發(fā)市場關(guān)注。



        根據(jù)團隊公布的論文顯示,螞蟻推出的百靈大模型分為兩個版本——參數(shù)規(guī)模為168億(激活參數(shù)27.5億)的百靈Lite和參數(shù)規(guī)模為2900億(激活參數(shù)288億)的百靈Plus。通過實驗表明,使用國產(chǎn)較低性能的GPU芯片,也能完成3000億參數(shù)的MoE(混合專家)大語言模型的訓練,而且性能與英偉達芯片訓練的同等參數(shù)模型相當。



        記者在論文中看到,MoE大模型的訓練通常依賴于英偉達H100或H800等高性能GPU芯片,但過高的成本以及出口管制等問題,也限制了大模型的普及應用。因此,百靈團隊通過低性能GPU來訓練模型,通過模型訓練環(huán)境、優(yōu)化策略、基礎(chǔ)設(shè)施、訓練過程、評估結(jié)果和推理等層面進行優(yōu)化,用低成本來復現(xiàn)高性能模型。



        其中,跨異構(gòu)計算與分布式集群是百靈大模型的訓練創(chuàng)新之舉。據(jù)螞蟻相關(guān)人士介紹,跨異構(gòu)計算與分布式集群主要解決基座芯片的混合性能問題,不同品牌和型號的芯片的結(jié)構(gòu)和性能存在差異,協(xié)同處理數(shù)據(jù)需要通過分布式和跨異構(gòu)計算來彌補芯片差異,這樣能更好地降低芯片成本,以免被同一種芯片產(chǎn)能限制。



        值得一提的是,百靈團隊通過5種不同芯片配置的硬件來訓練百靈Plus,其中高性能硬件配置訓練1萬億token(詞元)的預訓練成本約為635萬元,而百靈調(diào)優(yōu)過的低規(guī)格硬件的訓練成本將降至508萬元左右,降低約近20%的成本,而性能保持與通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當。不過相關(guān)人士也透露,這種測試結(jié)果是實驗環(huán)境中取得的,真實使用感受的差距仍有待驗證。



        目前,百靈大模型已在生活服務、金融服務、醫(yī)療健康等場景落地應用。針對百靈大模型所取得的成績,螞蟻集團回應稱,未來將針對不同芯片持續(xù)調(diào)優(yōu),以降低AI應用成本,百靈Plus和百靈Lite兩款大模型將在日后開源。



        DeepSeek之后,國產(chǎn)芯片立功,AI訓練成本再“打八折”



        解放日報 查睿






        亚洲AV色欲色欲WWW| 亚洲情a成黄在线观看动漫尤物| 激情婷婷成人亚洲综合| 亚洲成在人线av| 亚洲熟妇久久精品| 亚洲级αV无码毛片久久精品| 亚洲免费视频网址| 国产亚洲老熟女视频| 精品亚洲成A人无码成A在线观看| 亚洲另类激情综合偷自拍图| 亚洲中文字幕伊人久久无码| 亚洲中文字幕无码爆乳app| 亚洲不卡1卡2卡三卡2021麻豆| 亚洲va久久久噜噜噜久久狠狠| 亚洲AV无码之日韩精品| 亚洲一区二区三区乱码在线欧洲| 亚洲A∨无码无在线观看| 在线亚洲精品福利网址导航| 亚洲人成网站色在线入口| 亚洲午夜福利精品无码| 国产a v无码专区亚洲av | 亚洲高清无码在线观看| 国产亚洲福利精品一区二区| 亚洲妇女熟BBW| 亚洲精品永久在线观看| 日本亚洲精品色婷婷在线影院| 亚洲av无码专区在线| 亚洲自偷自偷在线成人网站传媒| 亚洲欧洲av综合色无码| 精品亚洲AV无码一区二区三区| 亚洲欧洲日韩国产一区二区三区| 亚洲色无码国产精品网站可下载| 亚洲欧美熟妇综合久久久久| 国产亚洲欧美在线观看| 亚洲精品成人久久久| 国产成人精品日本亚洲语音| 亚洲AV无码不卡在线观看下载| 毛茸茸bbw亚洲人| 中文字幕日韩亚洲| 亚洲AV午夜成人影院老师机影院| 亚洲国产成人久久综合碰碰动漫3d|