財經｜研究發現：嵌入大模型AI掃地機械人任務成功率僅40%

人工智能（AI）實驗室Andon Labs最近進行的一項評估顯示，搭載頂級大模型（LLM）的掃地機器人在簡單家務任務中表現糟糕，成功率遠低於人類。

實驗要求機器人執行「把牛油遞給人」的多步驟指令，包括跨房間定位、區分包裝、尋找移動位置的人類、完成交付並返回充電。結果顯示，Gemini 2.5 Pro 的成功率僅 40%，Claude Opus 4.1 為 37%，GPT-5 為 30%，明顯落後於人類的表現。人類的準確率也並非100%，而是只有95%。

研究指出，LLM在空間推理、環境理解、長期任務規劃等方面仍存在明顯短板。研究人員得出結論，LLM尚未準備好成為機械人。

研究團隊強調，娛樂之外也有嚴重隱患：某些機器人可被誘導洩露機密文件，部分機型無法識別樓梯風險而從高處跌落，暴露當前LLM與機器結合的安全漏洞。

在資本大舉押注機器人時代的當下，這項研究提醒人們：強大的文本生成能力不代表能穩定、安全地在物理世界執行任務，AI機器人距離真正進入家庭仍有大量工程與安全問題需要解決。