12/02/2025 13:51
12/02/2025
13:51

財經|據報字節跳動豆包大模型團隊推全新稀疏模型架構UltraMem

內媒《證券時報》報道,字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem,該架構有效解決MoE(混合專家)推理時高額的訪存問題,推理速度較MoE架構提升兩倍至六倍,推理成本最高可降低83%。

該研究還揭示新架構的Scaling Law,證明其具備優異的Scaling特性,在性能上超越了MoE。實驗結果表明,訓練規模達2,000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢新路徑。

Subscribe FORTUNE INSIGHT Telegram: 
http://bit.ly/2M63TRO

Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen

即時分享