內媒《證券時報》報道,字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem,該架構有效解決MoE(混合專家)推理時高額的訪存問題,推理速度較MoE架構提升兩倍至六倍,推理成本最高可降低83%。
該研究還揭示新架構的Scaling Law,證明其具備優異的Scaling特性,在性能上超越了MoE。實驗結果表明,訓練規模達2,000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢新路徑。
內媒《證券時報》報道,字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem,該架構有效解決MoE(混合專家)推理時高額的訪存問題,推理速度較MoE架構提升兩倍至六倍,推理成本最高可降低83%。
該研究還揭示新架構的Scaling Law,證明其具備優異的Scaling特性,在性能上超越了MoE。實驗結果表明,訓練規模達2,000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢新路徑。
Subscribe FORTUNE INSIGHT Telegram:
http://bit.ly/2M63TRO
Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen