News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

开放世界中移动运营的进步!已经宣布了第一个

开放世界中移动运营的进步!已经宣布了第一个内部移动抓地力多模式代理,零调整模型的零样品动作精度达到90% 在国内服务机器人领域,如何允许机器人在开放环境中理解自然语言的指示,动态规划行动路线和精确操作的实现一直是学术和工业界的核心挑战。最近,上海人工智能研究所与新加坡国立大学,香港大学和其他机构的研究团队合作,提出了专为Incorpated OWMM的多模式代理(VLM Agent)的第一个体系结构,该架构是为Incorporated OWMM -Agent -Agent -Agent -Agent -Agent -Agent -Open World Mobile Operation(OWMM)。同时,这项工作通过模拟器和此任务的OWMM-VLM多模式模型综合了代理商的职业数据。在真正的环境证据中,PREC对该模型零样本的单个步骤的作用的预测的ISION达到了90%。纸张链接:https://arxiv.org/pdf/2506.04217github。在构建或语义图之前的3D重建不仅长期以来一直在动态环境中处理。 OWMM任务的中心难度如下:全局场景的推断:应结合自然语言和多个视觉信息的说明,以了解整个场景的设计和对象信息。配备了决定的循环:它实时跟踪机器人的状态(例如当前位置或长期任务的执行状态),并生成满足物理限制的操作(例如,了解需要某个距离才能获得对象)。系统集成问题:基于VLM的模型很难产生机器人控制所需的基本目标(例如导航目标点坐标,坐标握把对象的内在)。 2. OWMM-Ancent:使用“大脑”机器人研究团队提出的VLM,OWMM代理操作 - 使其技术脱落并通过两项主要创新破坏了先前的瓶颈。推理和定位的问题(地面连接)。长期环境的记忆:使用映射之前在阶段中获得的多个视觉场景图像(如图1中的历史框架所示)来构建全局场景的理解能力,并支持复杂说明的空间推理(例如,从条形凳上取一个对象,然后将其放在沙发上”)。临时状态记忆:机器人以文本格式的实时状态(例如“捕获的对象,客观位置Offocus”),并帮助VLM生成与上下文相关的动作序列。动作空间设计:VLM模型直接发行HA Andle Action和对自我的观察,重点是调整RGB空间的参数,传统通行证ES规划师(通过计划者)和机器人武器(运动规划师)预定义政策的计划。图1:OWMM代理框架和操作接口设计2。任务是在PDDL语言中定义的,并且OWMM情节自动生成。143仿真方案,157个可以捕获的不同对象,1,471个容器和超过200,000集的跨语法文本数据。符号世界建模:使用模拟环境的真实值数据(例如对象坐标,机器人状态,PDDL世界状态),以避免手动注释成本。多模式改进:通过GPT-4O重写思想和文本摘要内容,并介绍机器人的第一张图像,以提高数据多样性和语义地面连接功能。该设备是通过模拟进行的多合成。使用DAL数据,基于良好的内部调整2.5 8b/38b,为OWMM的专用OWMM-VLM模型(使用DAL数据)。图2:OWMM-VLM III。实验验证:模拟和真实环境模拟环境中的双重突破,OWMM-VLM模型显示了重要的优势:单步功能:三个核心任务:“以自我为中心的动作决策”,“图像搜索”,“动作搜索”和“动作定位”,38亿个参数参数参数参数参数的参数参数参数型号,加速度参数parametbiuntiund comparectiund comparectiund paramentbiund compainbiund comparectiund comparectem-nimut comparectiund comparectem-nimutectiund comparectiund compainbiund comparectiund comparebed 98884-v。 "," action positioning ", respectively, are far beyond GPT-4O (48.53%, 46.46%, 7%) and modular solutions (such as GPT-4O+Robopoint). Complete sequence task: in simulation test 308, the success rate of OWMM-VLM-38B through the OWMM length sequence grip task reached 21.9%, zero dead cycle. On the other hand, the success rate for the reference model is less比1%的幻觉和误差的累积,这是一个陷入困境的。铁。现实世界环境测试:在Faith Robotstch中,该模型达到了零样本动作生成的90%的成功率(30个测试中的27个)。例如,当将桌面的大豆牛奶推车转移到会议表任务时,该模型精确地获得了目的地位,建立和计划导航路线并生成机器人握把坐标以展示强大的概括能力。在真实的机器实施实验中,团队采用了Robi Butler的工作提供的多模式接口,在该界面中,人类通过VR设备控制了内部机器人系统,并移至OWMM-Agent框架。 4.未来的观点:朝着通用家庭机器人转向这项研究首次证明,紧密数据的VLM模型成为开放世界移动运营的一般基本模型。同时,此任务存在局限性。当前的方法是相对理想环境的重建,而与客观任务相关的t观察已经在内存中,并且可以控制复杂的机器人技术(例如多型手)。随着衰老协会对服务机器人的需求的增加,OWMM代理的进步已经为家庭中普通参与者提供了重要的技术基础,可以“听到和看到”。也许在不久的将来,我们可以真正指导它通过“指导机器人在祈祷中完成家庭任务”的智力生活。
  • 上一篇:举行
  • 下一篇:没有了
Tel
Mail
Map
Share
Contact