03/11/2025 09:56
03/11/2025
09:56

財經|研究發現:嵌入大模型AI掃地機械人任務成功率僅40%

人工智能(AI)實驗室Andon Labs最近進行的一項評估顯示,搭載頂級大模型(LLM)的掃地機器人在簡單家務任務中表現糟糕,成功率遠低於人類。

實驗要求機器人執行「把牛油遞給人」的多步驟指令,包括跨房間定位、區分包裝、尋找移動位置的人類、完成交付並返回充電。結果顯示,Gemini 2.5 Pro 的成功率僅 40%,Claude Opus 4.1 為 37%,GPT-5 為 30%,明顯落後於人類的表現。人類的準確率也並非100%,而是只有95%。

研究指出,LLM在空間推理、環境理解、長期任務規劃等方面仍存在明顯短板。研究人員得出結論,LLM尚未準備好成為機械人。

研究團隊強調,娛樂之外也有嚴重隱患:某些機器人可被誘導洩露機密文件,部分機型無法識別樓梯風險而從高處跌落,暴露當前LLM與機器結合的安全漏洞。

在資本大舉押注機器人時代的當下,這項研究提醒人們:強大的文本生成能力不代表能穩定、安全地在物理世界執行任務,AI機器人距離真正進入家庭仍有大量工程與安全問題需要解決。

Subscribe FORTUNE INSIGHT Telegram: 
http://bit.ly/2M63TRO

Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen

即時分享