机器之心 微信公众号 行业动态

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

发布:2026-06-11 · 事件:2026-06-11 07:16:21
机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是, 今天的大多数 VLA 更像 “展台机器人” 。它们在 固定场景、固定布局、固定光照 下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。 但这些其实只是表面困境。
设计环保
机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是, 今天的大多数 VLA 更像 “展台机器人” 。它们在 固定场景、固定布局、固定光照 下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。 但这些其实只是表面困境。真正困难的,也是 VLA 走向实际应用场景真正需要的,其实是: 组合泛化(Compositional Generalization) :VLA 学会 A、B、C 技能之后,能否自动组合出 A→B、B→C、C→A 等技能?即能否通过组合串联技能,执行长程、复杂的任务? 小样本迁移(Few-shot / One-shot Transfer) :学习新任务是否需要成百上千条演示?能不能像人类一样,看几次示教、 甚至只看一次示教,就掌握一个新技能? 主流范式往往过度对齐原始轨迹本身,却缺少对 “轨迹背后意图” 的显式表征与推理,从而在泛化与迁移上受限。 针对上述问题,上海创智学院 × 上海交通大学  x 智动未来 提出: 项目主页:https://renming-huang.github.io/MINT/ Github 链接:https://github.com/RenMing-Huang/MINT 论文链接:https://arxiv.org/abs/2602.08602 MINT 是一种面向强泛化、强迁移的 VLA 架构与训练范式 。它的核心思想是:机器人不应该只模仿 “动作轨迹”,而应该分层次地理解: 「在什么情形应当触发什么抽象行为 “意图”」 「如何根据当前场景,动态地 “执行” 行为意图」 一旦 VLA 能显式理解和表征抽象的行为意图,长期困扰 VLA 的泛化性和迁移性问题,就可以打开新的解法。 频谱分解动作词元化(Spectrally Disentangled Action Tokenization) MINT 的关键技术来自一个信号处理视角:动作轨迹可以被看作时间信号,天然具备频谱结构。 SDAT 把动作表征映射到多个尺度的词元: 最粗粒度词元(S1 尺度) :主要表征低频信号,对应全局行为意图,论文称做 “Intent token” 更细粒度的词元(S2-SK 尺度) :逐步补充高频执行细节,论文称做”Execution tokens” S1-SK 尺度的词元数逐步增多,形成金字塔形状的词元表征体系。 那么,不同尺度的词元是如何与低频和高频信号建立对应关系的呢? MINT 应用了如下技术: 残差学习(residual learning) :细尺度的词元只学习未被粗尺度词元捕捉的残差信息 由粗到细多尺度重建(coarse-to-fine multi-scale reconstruction) :各个尺度的前缀(prefix)词元集合,都会分别被用来进行轨迹重建,保障尽可能完整地表征轨迹信息。 频域重建(frequency-domain reconstruction) :MINT 在「频域空间」中计算轨迹重建损失,这使得低频、高频信号能被显式地拆解开来,按需融入到不同尺度的词元内。 如此,使得粗尺度词元专注于学习轨迹的大体形态,而细尺度词元则专注于补充轨迹细节。 策略学习:“意图→执行” 的逐步推理 在策略层面,MINT 采用 “Intent → Execution” 的分层生成: 先预测 Intent Token-> 再逐层生成 Execution Tokens-> 最后将多尺度词元解码为连续控制轨迹 这个由粗到细的过程相当于在词元空间里进行分步推理: 先确定要执行的行为意图,再补上达到该意图所需的控制细节 。这种方式可以提升学习效率,并在长程任务中带来更稳定的执行表现。 策略迁移:通过一次示教学会新任务 MINT 最有意思的部分来了: Intent Token 可以直接用于策略迁移。 既然 Intent Token 表示的是抽象 “行为意图”,那它就可以 直接替代语言,作为「任务表达(task specification)」 。 这意味着,对于一个全新任务,模型不需要重新训练:只要提供一条示教轨迹,提取其 Intent Token,并将该 Token 注入到策略的生成过程中,模型就能在相同的推理框架下生成对应的执行细节并完成任务。 由于注入的是更抽象的意图而不是整段轨迹细节,这种迁移方式在跨任务、跨场景时更容易保持稳定。论文将这一能力称为:「 One-shot Transfer via Intent Token Injection 」 而这也是 MINT 最重要的创新之一。 实验结果 一、基准任务性能:全面超越 SOTA 方法 在 LIBERO、CALVIN 和 MetaWorld 三个基准上,MINT 的性能全面超越了当前的 SOTA 方法: 在 LIBERO 上,30M 参数的 MINT-30M(不包含预训练 VLM)平均任务成功率达到 97.1%,大幅超越 SmolVLA 的 88.8%;4B 参数的 MINT-4B(有预训练 VLM)平均成功率达到 98.3%,超越了 π₀.₅ 的 96.9%; 在 CALVIN 上,MINT-4B 在长序列任务中表现尤其出色,性能显著超过 SOTA,验证了其长程执行稳定性; 在 MetaWorld 的 “极难” 类任务上,MINT-4B 的成功率接近 π₀ 的三倍,展现出在复杂长程任务中的显著优势。 二、泛化性:对抗分布外强扰动 在更强调分布外鲁棒性的测试中,作者 在 LIBERO 上训练、并在分布更广的 LIBERO-Plus 上评估 ,考察相机视角、初始姿态、光照、背景纹理与视觉噪声等多类强扰动。 面对相机视角变化时,MINT 的性能损失远小于 OpenVLA、π₀.₅ 等主流方法。 面对背景、布局、光照、视觉噪声等强干扰时,MINT 依然维持了 84.6%-96.6% 的高任务完成率。 这些结果都印证了: “行为意图认知” 对于提升 VLA 泛化性的关键作用 。 三、技能迁移:只需要演示一次 现有的迁移方法无论是通过微调(fine-tuning)还是重扩散(re-diffusion),在只有单条示教轨迹的条件下,都很难完成迁移。而 MINT 通过 Intent Token Injection,能稳定完成新任务迁移、新场景迁移: 对于新任务,MINT 用一条示教轨迹,就能达到  90% 的任务成功率 ,而通过微调迁移的成功率只有 42%。 MINT 展现出 组合泛化(Compositional Generalization) 的潜力。例如,训练中只见过 A 和 B 两个技能,但通过一次演示,MINT 能直接完成 A→B 这样的组合任务。这也是当前 VLA 极少展示出的能力。 四、真机验证:物理世界的高效落地 研究团队进一步在真实的 Piper-X 6DoF 机械臂上进行了真机实验。训练任务包括抓放香蕉、堆叠积木、插马克笔等,各提供了仅 20 条示教轨迹供模型后训练。测试任务还包含了从未见过的叠杯子任务,用以测试零样本泛化。 结果显示: MINT-4B 的整体成功率相比 π₀.₅ 等主流 VLA 模型提升了 29%; MINT-4B 在叠积木、插马克笔等任务中表现出更强的精确操作能力; MINT 能够把 “堆叠” 这一抽象意图,从叠积木任务迁移到从未见过的叠杯子任务上。而 π₀ 等方法则几乎无法完成该未见任务。 这些真机结果进一步证明: MINT 学到的,已经不是单纯的轨迹,而是真正可迁移的行为结构。 © THE END  转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com
← 返回资讯列表