嵌入大模型的扫地机器人多项任务翻车,成功率仅40%。根据 latest 和on Labs recent的一项评估,搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕,成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令,包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。
研究结果显示,Gemini 2.5 Pro 的成功率仅为40%,Claude Opus 4.1 为37%,GPT-5 为30%。这些数据表明,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。
这项研究的重点是针对机器人安全隐患进行了深入探索。大模型在处理机器人与环境间接相互作用时,存在明显漏洞。部分机型无法识别楼梯风险而从高处跌落,暴露当前大型语言模型(LLM)与机器结合的安全漏洞。
在资本大举押注机器人时代,这项研究提醒人们:强大的文本生成能力不代表能稳定、安全地在物理世界执行任务。AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。
研究结果显示,Gemini 2.5 Pro 的成功率仅为40%,Claude Opus 4.1 为37%,GPT-5 为30%。这些数据表明,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。
这项研究的重点是针对机器人安全隐患进行了深入探索。大模型在处理机器人与环境间接相互作用时,存在明显漏洞。部分机型无法识别楼梯风险而从高处跌落,暴露当前大型语言模型(LLM)与机器结合的安全漏洞。
在资本大举押注机器人时代,这项研究提醒人们:强大的文本生成能力不代表能稳定、安全地在物理世界执行任务。AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。