財經｜據報字節跳動豆包大模型團隊推全新稀疏模型架構UltraMem

內媒《證券時報》報道，字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem，該架構有效解決MoE（混合專家）推理時高額的訪存問題，推理速度較MoE架構提升兩倍至六倍，推理成本最高可降低83%。

該研究還揭示新架構的Scaling Law，證明其具備優異的Scaling特性，在性能上超越了MoE。實驗結果表明，訓練規模達2,000萬value的UltraMem模型，在同等計算資源下，可同時實現業界領先的推理速度和模型性能，為構建數十億規模value或expert開闢新路徑。