阿里巴巴(09988)旗下阿里雲發布多模態交互開發套件,該套件集成千問、萬相、百聆3款通義基礎大模型,並預置十多款生活休閒、工作效率等領域的Agent和MCP工具,能聽、會看,還能思考並且與物理世界交互,可應用於人工智能(AI)眼鏡、學習機、陪伴玩具、智能型機械人等硬件設備。
阿里雲多模態交互開發套件為硬件企業和解決方案商提供低開發門檻、回應速度快、場景豐富的平台。在晶片層面,該套件適配30多款主流ARM、RISC-V和MIPS架構終端晶片平台。未來,通義大模型還將與玄鐵RISC-V實現軟硬全鏈絡的協同優化,實現通義大模型家族在RISC-V架構上的極致高效部署和推理性能。
阿里雲還展示了面向智能穿戴設備、陪伴機械人、具身智能等領域的解決方案。例如,在AI眼鏡領域,基於千問VL、百聆CosyVoice等模型,阿里雲打造了感知層、規劃層、執行層以及長期記憶的完整交互鏈路,可一站式實現同聲傳譯、拍照翻譯、多模態備忘錄、錄音轉寫功能,有效解決交互不自然、回答準確率低的難題。面向家庭陪伴機械人場景,基於千問模型和多模態交互套件,阿里雲推出的解決方案不僅可即時監測異常狀況,並及時推送告警訊息,用戶還能基於關鍵字查找、定位視頻,與機械人進行對話交互和控制設備等。

