小米(01810)正式發布並開源首代機械人VLA(Vision-Language-Action)大模型Xiaomi-Robotics-0。
該模型擁有47億參數,核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點,兼具視覺語言理解與高性能即時執行能力,可在消費級顯卡上實現即時推理,在模擬測試和真機任務中均刷新多項SOTA成績。
小米技術在官方微信表示,Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構,通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合,實現「感知-決策-執行」的高效閉環,兼顧通用理解與精細動作控制。
其中,「視覺語言大腦」以多模態VLM大模型為底座,負責理解人類的模糊指令(如「請把毛巾疊好」),並從高清視覺輸入中捕捉空間關係;「動作執行小腦」嵌入多層Diffusion Transformer(DiT),不直接輸出單一動作,而是生成一個「動作塊」(Action Chunk),並通過流匹配(Flow-matching)技術確保動作的精準度。
為避免模型學動作丟失基礎理解能力,小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法,讓模型既懂常識又精通體力活。
小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放,相關資源可分別在GitHub、Hugging Face等平台獲取。

