机器之心微信公众号行业动态
连续入选ICRA最佳论文，RoboScience机器科学如何突破具身智能泛化瓶颈？

发布：2026-06-08 07:12:43 · 事件：2026-06-08 07:12:43
编辑｜Sia 在具身智能最难的泛化问题上，他们连续拿出顶会级成果，并把它们沉淀进其创新 VLOA 大模型，推动机器人迈向广阔现实。 6 月 1 日至 5 日，机器人领域顶级会议 ICRA 2026 在奥地利维也纳举行。
数据
编辑｜Sia

在具身智能最难的泛化问题上，他们连续拿出顶会级成果，并把它们沉淀进其创新 VLOA 大模型，推动机器人迈向广阔现实。

6&nbsp;

月

&nbsp;1&nbsp;

日至

&nbsp;5&nbsp;

日，机器人领域顶级会议

&nbsp;ICRA 2026&nbsp;

在奥地利维也纳举行。

RoboScience&nbsp;

机器科学首席科学家、新加坡国立大学助理教授邵林团队的论文 《

Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects via Semantic Correspondence

》入围机器人操作与运动方向（

Robot Manipulation and Locomotion

）

最佳论文奖提名（

Finalist

）

&nbsp;

。同时入围该奖项提名的，还包括来自伯克利大学、斯坦福大学、麻省理工学院、清华大学等全球顶级高校的研究团队。

&nbsp;

这已经不是邵林团队第一次站上

&nbsp;ICRA&nbsp;

的高光位置。去年&nbsp;

ICRA 2025&nbsp;

，团队曾凭借通用灵巧抓取框架

&nbsp;D(R,O) Grasp&nbsp;

从四千多篇投稿中脱颖而出，斩获机器人操作与运动方向最佳论文奖（&nbsp;

Winner&nbsp;

），成为近五年来亚洲机构首次以第一单位身份获此殊荣的团队。

而在&nbsp;

ICRA 2026&nbsp;

论文录用结果中，邵林带领的团队共有&nbsp;

10&nbsp;

篇研究成果成功入选。这些论文聚焦灵巧抓取、社交导航、低成本力感知与混合任务规划等核心方向，系统性地推进了具身智能的技术边界。

&nbsp;

&nbsp;

从

&nbsp;2025&nbsp;

年获奖，到

&nbsp;2026&nbsp;

年

再度入围

，邵林团队也成为近五年来亚洲唯一连续两年获得该方向最佳论文奖项认可的团队。这一成绩不仅体现其在机器人操作领域的持续创新能力，也进一步凸显中国具身智能企业在国际顶级学术舞台上的技术影响力。

但相比奖项本身，这两篇论文更值得关注的地方在于它们共同指向了具身智能走向真实世界前必须跨过的门槛：泛化操作能力。

&nbsp;

Bi-Adapt

：

一种用于高效学习通用双手操作的新型框架

&nbsp;

对机器人来说，双臂操作远比单臂抓取复杂得多。两只手不仅要分别判断接触点和动作方向，还必须彼此配合。传统解决方案要么针对不同物体人工设计动作，要么依赖大规模数据，通过大量示范或交互训练模型。但前者难以覆盖真实世界复杂多变的几何结构，后者意味着高昂的数据采集和训练成本。

Bi-Adapt&nbsp;

的核心突破在于：机器人能将已经学会的双臂操作经验迁移到没见过的新物体类别上，并且

只需要少量试错

，就能在仿真和真实环境中保持较高成功率。

Bi-Adapt&nbsp;

，一种用于高效学习通用双臂操作的新框架。

仿真测试显示，

Bi-Adapt&nbsp;

在五类新类别双臂操作任务上的成功率达到

&nbsp;59%—70%

，显著超过多个基线方法。

&nbsp;

仿真测试结果显示

Bi-Adapt&nbsp;

在五类双臂任务上均显著超过启发式规则、

M-Where2Act

、

DualAfford&nbsp;

等基线方法。

&nbsp;

在真实机器人实验中，它也完成了展开、打开、取盖等任务，验证了跨类别操作能力从仿真到真实环境的可迁移性。

&nbsp;

真实机器人验证。

&nbsp;

简单来说，

Bi-Adapt&nbsp;

把跨类别双臂操作变成了三步曲：先找对位置，再学会配合，最后用少量试错修正。

Bi-Adapt

pipeline&nbsp;

主要包括动作学习、可供性迁移、少样本适配和最终执行四个阶段。

&nbsp;

第一步，是在已知类别上建立「操作经验库」。系统会记录成功操作时，两只夹爪分别接触哪里、以什么方向运动、如何协同发力。

这里有一个关键设计：

Bi-Adapt&nbsp;

没有把两只手当成两个独立执行器，而是把双臂动作拆成两个相互依赖的模块。

与推理不同，训练时采用了反向数据流：先训练第二只夹爪在不同第一手动作下如何协同，再训练第一只夹爪学会提出更有利于整体协作的动作，让第一只手学会为第二只手创造配合条件。

第二步，是用视觉基础模型做跨类别语义对应。

机器人虽然没有见过钳子，但如果学过如何操作剪刀，就可以借助视觉基础模型判断：剪刀上的成功接触点，在钳子上最可能对应哪里。

论文中使用了

&nbsp;DIFT

，也就是

&nbsp;diffusion feature

，从扩散模型中提取图像特征，并比较源图像接触点与目标图像各个像素之间的相似度。相似度最高的位置，就被视为新物体上的候选接触点。

第三步，少样本交互适配。

视觉上的相似并不等于物理上一定可操作，因此机器人会拿候选接触点执行少量尝试，根据成功或失败反馈微调模型，过滤掉错误接触点，修正两只夹爪的动作方向。

最后，最终的控制策略被部署于全新类别的未知实例上。

如果说

&nbsp;Bi-Adapt&nbsp;

试图解决「不同物体怎么操作」，那么

ICRA 2025&nbsp;

获奖的

&nbsp;D(R,O) Grasp&nbsp;

应对的是另一个泛化挑战：不同灵巧手之间如何复用同一套抓取能力。

通过将机器人手和物体都表示成点云，学习二者在稳定抓取时应该形成的空间距离关系，

D(R,O) Grasp

突破了传统「一机一策」的局限——基于这一统一表示，一个

&nbsp;AI&nbsp;

模型即可支持

&nbsp;LeapHand

、

Shadow Lite

、

XHand

、

SoftHand&nbsp;

等多种灵巧手，覆盖

&nbsp;3/4/5&nbsp;

指、软体与硬质等不同形态，完成复杂抓取操作。

两项顶会级工作放在一起，构成了邵林团队近两年的技术主线：机器人操作能力不应该绑定单一硬件、单一物体或单一场景，而应该逐步沉淀为可复用、可迁移的通用能力。

&nbsp;

顶会神技「并网」到通用具身大脑

&nbsp;VLOA

&nbsp;

邵林

曾指出

，具身智能大模型不能简单照搬

&nbsp;CV&nbsp;

或

&nbsp;NLP&nbsp;

的

&nbsp;scaling&nbsp;

经验。图像和文本天然拥有相对统一的数据格式，但机器人操作面对的是任务、物体和机器人本体三重多样性，若没有统一的数据格式，这些数据很难被纳入同一体系学习，模型也很难形成真正可迁移的操作能力。这也是现有

&nbsp;VLA&nbsp;

路线面临的核心瓶颈。

RoboScience&nbsp;

机器科学提出的

&nbsp;VLOA

（

Vision-Language-Object-Action

）路线，正是为了解决这一问题。相比直接从

&nbsp;Vision-Language&nbsp;

跳到

&nbsp;Action

，

VLOA&nbsp;

在中间引入了&nbsp;

Object

，也就是以物体为中心的状态变化表示——

无论是拿起杯子、打开盒盖，还是插入零件，最终都可以被描述为物体在三维空间中的位置、姿态和形态变化。

Object Trajectory&nbsp;

（物体

&nbsp;3D&nbsp;

连续点云轨迹）正是对这种变化的统一表达。

基于这一思考，邵林团队搭建了一个「具身世界模型

&nbsp;+&nbsp;

通用操作模型」的双引擎架构，指导「

任意机器人操作任意对象、完成任意任务

」。

RoboScience

机器科学提出的

&nbsp;VLOA

（

Vision-Language-Object-Action

）框架，一个双引擎架构。

&nbsp;

在这一框架中，

上层具身世界模型

负责理解任务语义，预演物体在三维空间中的状态变化，也就是

&nbsp;object trajectory

。它更多从互联网视频、说明书、多模态数据中学习语义和常识。

下层通用操作模型

负责把

&nbsp;object trajectory&nbsp;

转成具体机器人的动作。它学习的是物理规律、接触、力、约束和控制，可以通过公司自研的物理引擎和仿真数据大规模训练。

连接它们的灵魂纽带就是

&nbsp;Object Trajectory

（物体

&nbsp;3D&nbsp;

连续点云轨迹） 接口。有了这一中间表示，不同来源的数据才能被统一纳入同一体系，犹如海纳百川。

这一框架的能力，也已经在真实任务中得到验证。2025&nbsp;

年

&nbsp;5&nbsp;

月，

RoboScience

基于

&nbsp;VLOA&nbsp;

大模型完成了全球范围内复杂度、精度和步骤数都极高的具身操作任务

拼家具。

&nbsp;基于

&nbsp;VLOA&nbsp;

大模型完成拼家具人物，一镜到底。

这类任务考验的不是某一个单项「神技」，而是模型能否把一系列分散能力有效整合起来，在复杂物理环境中完成稳定、精细、连贯的操作。

也正是在这个背景下，

Bi-Adapt&nbsp;

和

D(R,O) Grasp&nbsp;

的价值不止于顶会论文，而是在为

&nbsp;VLOA&nbsp;

补齐关键底层能力——跨类别操作泛化、一个模型适配多种末端执行器。这一系列研究成果的落地，将显著降低机器人操作技能的学习成本与部署门槛，推动具身智能摆脱遥控器和预设技能库，自主理解世界，并在真实物理环境中稳定执行任务。

可以说，融合了世界模型的

&nbsp;VLA

，也就是

VLOA&nbsp;

路线，正成为具身智能迈向真实场景的一种更优解。

&nbsp;

斯坦福学术

&nbsp;×&nbsp;

硅谷工程：

RoboScience&nbsp;

机器科学的双重底座

&nbsp;

RoboScience&nbsp;

机器科学成立于

&nbsp;2024&nbsp;

年

&nbsp;12&nbsp;

月，是一家聚焦通用具身智能的全球领先企业，由前苹果

&nbsp;AI&nbsp;

平台技术负责人、斯坦福大学

&nbsp;AI Lab&nbsp;

硕士田野，与新加坡国立大学助理教授、斯坦福大学

&nbsp;AI Lab&nbsp;

博士邵林联合创立。

邵林（左）和田野（右）

&nbsp;

这组创始人搭配，正好对应了

RoboScience&nbsp;

机器科学的技术路线：一端是机器人操作、灵巧手、跨本体抓取与仿真等方向的前沿学术积累，另一端则是大规模

&nbsp;AI&nbsp;

基础设施和工程系统的落地经验。

邵林本科毕业于南京大学，斯坦福大学博士，师从机器人学习领域学者

&nbsp;Jeannette Bohg

，联合导师为美国三院院士

&nbsp;Leonidas J. Guibas

，长期深耕机器人操作、灵巧手、跨本体抓取与仿真等方向。值得一提的是，邵林与

&nbsp;Hillbot&nbsp;

创始人苏昊、银河通用创始人王鹤、穹彻智能创始人卢策吾等同属斯坦福机器人与

&nbsp;AI&nbsp;

学术谱系，其中与王鹤为同届，苏昊、卢策吾为其师弟。

田野本科毕业于中科大物理系，后进入斯坦福大学

&nbsp;AI Lab&nbsp;

攻读硕士，师从「

AI&nbsp;

布道者」吴恩达。他曾在苹果担任

&nbsp;AI Platform&nbsp;

技术负责人，主导打造了「苹果的

&nbsp;PyTorch&nbsp;

与

&nbsp;CUDA

」核心平台，推动多项关键

&nbsp;AI&nbsp;

技术在苹果生态中大规模落地。

目前，公司已在机器人本体、末端执行器、多模态物理仿真等关键环节实现全栈布局，希望通过软硬一体路线，加速具身智能技术规模化落地。

&nbsp;

自研的高精度通用物理仿真平台 「

RoboMirage

」

&nbsp;

RoboScience&nbsp;

机器科学已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家

&nbsp;CVC&nbsp;

和财务机构的投资及产业支持，

近期又获得了多家国内外产业龙头、互联网大厂、头部财务机构等多轮注资，并在北京、深圳、苏州、杭州设有研发和生产中心。团队成员来自斯坦福、中科大、新加坡国立大学等顶尖高校，以及苹果、字节、腾讯、大疆等头部科技企业。

在产业化方面，公司已与多家零售、物流、康养服务企业，以及机器人本体、灵巧手公司开展试点合作，并计划于今年实现面向工业与商业场景的标准化机器人本体产品量产。

随着机器人进入零售、物流、工业、家庭等真实场景，真正的竞争也将从单点演示转向通用操作能力、数据闭环和系统工程能力。在这一行业拐点上，从顶会论文到工程系统，从泛化算法到真实机器人生产力，

RoboScience&nbsp;

机器科学正试图打通具身智能从「学术顶尖」走向「规模化落地」的关键链路。

在这场通往物理世界的万亿级长跑中，他们不仅在探索机器的边界，更在真实世界中加速未来的到来

&nbsp;

参考链接

https://nus-lins-lab.github.io/drograspweb/static/data/D(R,O)Grasp.pdf

https://arxiv.org/pdf/2602.08425
← 上一篇
未来天气将是：雨雨雨雨雨🫢
AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与
← 返回资讯列表