机器之心微信公众号行业动态
RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

发布：2026-06-11 · 事件：2026-06-11 07:16:21
机器人视觉语言动作（Vision-Language-Action, VLA）模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是，今天的大多数 VLA 更像 “展台机器人” 。它们在固定场景、固定布局、固定光照下表现惊艳，可一旦真正进入开放环境，就立刻暴露其泛化性问题：物体位置变一点、背景换一下、光照改变一些，VLA 的成功率就会暴跌。对于新任务，往往需要重新收集大量示教轨迹（demonstration），才能让 VLA 学会。但这些其实只是表面困境。
设计环保
机器人视觉语言动作（Vision-Language-Action, VLA）模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是，

今天的大多数 VLA 更像 “展台机器人”

。它们在

固定场景、固定布局、固定光照

下表现惊艳，可一旦真正进入开放环境，就立刻暴露其泛化性问题：物体位置变一点、背景换一下、光照改变一些，VLA 的成功率就会暴跌。对于新任务，往往需要重新收集大量示教轨迹（demonstration），才能让 VLA 学会。

但这些其实只是表面困境。真正困难的，也是 VLA 走向实际应用场景真正需要的，其实是：

组合泛化（Compositional Generalization）

：VLA 学会 A、B、C 技能之后，能否自动组合出 A→B、B→C、C→A 等技能？即能否通过组合串联技能，执行长程、复杂的任务？

小样本迁移（Few-shot / One-shot Transfer）

：学习新任务是否需要成百上千条演示？能不能像人类一样，看几次示教、

甚至只看一次示教，就掌握一个新技能？

主流范式往往过度对齐原始轨迹本身，却缺少对 “轨迹背后意图” 的显式表征与推理，从而在泛化与迁移上受限。

针对上述问题，上海创智学院 × 上海交通大学&nbsp;

x 智动未来

提出：

项目主页：https://renming-huang.github.io/MINT/

Github 链接：https://github.com/RenMing-Huang/MINT

论文链接：https://arxiv.org/abs/2602.08602

MINT 是一种面向强泛化、强迁移的 VLA 架构与训练范式

。它的核心思想是：机器人不应该只模仿 “动作轨迹”，而应该分层次地理解：

「在什么情形应当触发什么抽象行为 “意图”」

「如何根据当前场景，动态地 “执行” 行为意图」

一旦 VLA 能显式理解和表征抽象的行为意图，长期困扰 VLA 的泛化性和迁移性问题，就可以打开新的解法。

频谱分解动作词元化（Spectrally Disentangled Action Tokenization）

MINT 的关键技术来自一个信号处理视角：动作轨迹可以被看作时间信号，天然具备频谱结构。

SDAT 把动作表征映射到多个尺度的词元：

最粗粒度词元（S1 尺度）

：主要表征低频信号，对应全局行为意图，论文称做 “Intent token”

更细粒度的词元（S2-SK 尺度）

：逐步补充高频执行细节，论文称做”Execution tokens”

S1-SK 尺度的词元数逐步增多，形成金字塔形状的词元表征体系。

那么，不同尺度的词元是如何与低频和高频信号建立对应关系的呢？

MINT 应用了如下技术：

残差学习（residual learning）

：细尺度的词元只学习未被粗尺度词元捕捉的残差信息

由粗到细多尺度重建（coarse-to-fine multi-scale reconstruction）

：各个尺度的前缀（prefix）词元集合，都会分别被用来进行轨迹重建，保障尽可能完整地表征轨迹信息。

频域重建（frequency-domain reconstruction）

：MINT 在「频域空间」中计算轨迹重建损失，这使得低频、高频信号能被显式地拆解开来，按需融入到不同尺度的词元内。

如此，使得粗尺度词元专注于学习轨迹的大体形态，而细尺度词元则专注于补充轨迹细节。

策略学习：“意图→执行” 的逐步推理

在策略层面，MINT 采用 “Intent → Execution” 的分层生成：

先预测 Intent Token-&gt; 再逐层生成 Execution Tokens-&gt; 最后将多尺度词元解码为连续控制轨迹

这个由粗到细的过程相当于在词元空间里进行分步推理：

先确定要执行的行为意图，再补上达到该意图所需的控制细节

。这种方式可以提升学习效率，并在长程任务中带来更稳定的执行表现。

策略迁移：通过一次示教学会新任务

MINT 最有意思的部分来了：

Intent Token 可以直接用于策略迁移。

既然 Intent Token 表示的是抽象 “行为意图”，那它就可以

直接替代语言，作为「任务表达（task specification）」

。

这意味着，对于一个全新任务，模型不需要重新训练：只要提供一条示教轨迹，提取其 Intent Token，并将该 Token 注入到策略的生成过程中，模型就能在相同的推理框架下生成对应的执行细节并完成任务。

由于注入的是更抽象的意图而不是整段轨迹细节，这种迁移方式在跨任务、跨场景时更容易保持稳定。论文将这一能力称为：「

One-shot Transfer via Intent Token Injection

」 而这也是 MINT 最重要的创新之一。

实验结果

一、基准任务性能：全面超越 SOTA 方法

在 LIBERO、CALVIN 和 MetaWorld 三个基准上，MINT 的性能全面超越了当前的 SOTA 方法：

在 LIBERO 上，30M 参数的 MINT-30M（不包含预训练 VLM）平均任务成功率达到 97.1%，大幅超越 SmolVLA 的 88.8%；4B 参数的 MINT-4B（有预训练 VLM）平均成功率达到 98.3%，超越了 π₀.₅ 的 96.9%；

在 CALVIN 上，MINT-4B 在长序列任务中表现尤其出色，性能显著超过 SOTA，验证了其长程执行稳定性；

在 MetaWorld 的 “极难” 类任务上，MINT-4B 的成功率接近 π₀ 的三倍，展现出在复杂长程任务中的显著优势。

二、泛化性：对抗分布外强扰动

在更强调分布外鲁棒性的测试中，作者

在 LIBERO 上训练、并在分布更广的 LIBERO-Plus 上评估

，考察相机视角、初始姿态、光照、背景纹理与视觉噪声等多类强扰动。

面对相机视角变化时，MINT 的性能损失远小于 OpenVLA、π₀.₅ 等主流方法。

面对背景、布局、光照、视觉噪声等强干扰时，MINT 依然维持了 84.6%-96.6% 的高任务完成率。

这些结果都印证了：

“行为意图认知” 对于提升 VLA 泛化性的关键作用

。

三、技能迁移：只需要演示一次

现有的迁移方法无论是通过微调（fine-tuning）还是重扩散（re-diffusion），在只有单条示教轨迹的条件下，都很难完成迁移。而 MINT 通过 Intent Token Injection，能稳定完成新任务迁移、新场景迁移：

对于新任务，MINT 用一条示教轨迹，就能达到&nbsp;

90% 的任务成功率

，而通过微调迁移的成功率只有 42%。

MINT 展现出

组合泛化（Compositional Generalization）

的潜力。例如，训练中只见过 A 和 B 两个技能，但通过一次演示，MINT 能直接完成 A→B 这样的组合任务。这也是当前 VLA 极少展示出的能力。

四、真机验证：物理世界的高效落地

研究团队进一步在真实的 Piper-X 6DoF 机械臂上进行了真机实验。训练任务包括抓放香蕉、堆叠积木、插马克笔等，各提供了仅 20 条示教轨迹供模型后训练。测试任务还包含了从未见过的叠杯子任务，用以测试零样本泛化。

结果显示：

MINT-4B 的整体成功率相比 π₀.₅ 等主流 VLA 模型提升了 29%；

MINT-4B 在叠积木、插马克笔等任务中表现出更强的精确操作能力；

MINT 能够把 “堆叠” 这一抽象意图，从叠积木任务迁移到从未见过的叠杯子任务上。而 π₀ 等方法则几乎无法完成该未见任务。

这些真机结果进一步证明：

MINT 学到的，已经不是单纯的轨迹，而是真正可迁移的行为结构。

© THE END&nbsp;

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com
← 返回资讯列表