財經｜小米(01810)開源首代機械人VLA大模型

小米(01810)正式發布並開源首代機械人VLA(Vision-Language-Action)大模型Xiaomi-Robotics-0。

該模型擁有47億參數，核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點，兼具視覺語言理解與高性能即時執行能力，可在消費級顯卡上實現即時推理，在模擬測試和真機任務中均刷新多項SOTA成績。

小米技術在官方微信表示，Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構，通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合，實現「感知-決策-執行」的高效閉環，兼顧通用理解與精細動作控制。

其中，「視覺語言大腦」以多模態VLM大模型為底座，負責理解人類的模糊指令(如「請把毛巾疊好」)，並從高清視覺輸入中捕捉空間關係；「動作執行小腦」嵌入多層Diffusion Transformer(DiT)，不直接輸出單一動作，而是生成一個「動作塊」(Action Chunk)，並通過流匹配(Flow-matching)技術確保動作的精準度。

為避免模型學動作丟失基礎理解能力，小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法，讓模型既懂常識又精通體力活。

小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放，相關資源可分別在GitHub、Hugging Face等平台獲取。