您的位置 首页 科技

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

机器人前瞻(公众号:robot_pro)作者 | 许丽思编辑 | 漠影机器人前瞻5月8日报道,昨天,星动纪元宣布开源首个AIGC生成式机器人大模型VPP (Video Prediction Policy)。该模型由清华大学交叉信息学院的ISRLab和星动纪元共同研发,还入选了ICML 2025 Spotlight高分作品。

机器人前瞻(公众号:robot_pro)

作者 | 许丽思

编辑 | 漠影

机器人前瞻5月8日报道,昨天,星动纪元宣布开源首个AIGC生成式机器人大模型VPP(Video Prediction Policy)。该模型由清华大学交叉信息学院的ISRLab和星动纪元共同研发,还入选了ICML 2025 Spotlight高分作品。

论文作者郭彦东解释,在这之前,机器人大模型普遍都是基于VLM(Vision-Language Model)模型的VLA模型(Vision-Language-Action Model)。而VPP则是基于类似Sora这样的AIGC生成式模型,它在训练过程中运用了海量互联网视频数据,可以根据当前场景生成视频,并让机器人执行物理动作。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

比如,当机器人面对实验台上的烧杯、移液管时,VPP会生成使用移液管的动作视频,然后机器人就可以将溶液移动至目标烧杯中。

展开全文

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

VPP将视频扩散模型的泛化能力转移到了通用机器人操作策略中,解决了diffusion推理速度的问题,让机器人可以实时进行未来预测和动作执行,提升了机器人策略泛化性。

VPP可分为两阶段的学习框架:第一阶段,VPP利用机器人及互联网操作数据集,将通用视频基础模型微调为专注于操作的文本引导视频预测(TVP)模型;第二阶段,通过Video Former和DiT扩散策略进行动作学习。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

VPP具备以下显著特性:

1、精准预知未来场景,预测与执行高度契合

传统机器人策略(如VLA模型)通常仅能依据当前观测数据开展动作学习,机器人需先行理解指令及场景,而后实施执行动作。

与之不同,VPP能够提前预知未来场景,且VPP的视频预测结果与机器人实际物理执行结果近乎一致,凡是能够被视频生成的动作,机器人均可顺利执行。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

2、摒弃像素级精确预测,大幅提升预测效能

尽管VPP具备预测未来场景的能力,但它并不会对未来每一像素进行精确预测,而是通过高效提取视频模型中间层表征,单步去噪预测便可蕴含丰富的未来信息。

单步视频扩散模型预测所蕴含的大量未来信息,足以支撑高频次预测(规划)与执行任务。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

3、跨本体视频数据学习,拓展数据获取边界

VPP能够直接对各种形态机器人的视频数据进行学习,如果将人类本体视为一种特殊的机器本体,VPP 同样能够直接学习人类操作数据,显著降低了数据获取成本。

同时,视频数据相较于低维度动作数据蕴含更为丰富的信息,有助于提升模型的泛化能力。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

4、具备举一反三能力,实现多任务高效学习

在星动纪元单臂+仿人五指灵巧手灵巧手XHAND平台,VPP能使用一个网络完成100+种复杂灵巧操作任务,包括放置、杯子扶正、重新定位、堆叠、传递、按压、拔插、开启以及复杂工具使用等任务。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

在双臂人形机器人平台上,它还能完成50+种复杂灵巧操作任务,展现出卓越的多任务处理能力。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

5、依托预测视频优化策略,提升任务执行成功率

VPP的预测视觉表示在一定程度上具备可解释性,开发者无需借助真实世界测试,便能通过预测视频提前洞察可能失败的场景与任务,进而开展针对性调试与优化工作。

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

此外,在Calvin ABC-D基准测试中,VPP达成了4.33的任务完成平均长度,接近任务满分5.0。较此前的先进方法,VPP实现了18.6%的相对性能提升;在真实场景的复杂灵巧操作任务中,其成功率提高了 31.6%。

总的来看,VPP打破了传统机器人对真机数据的过度依赖,为数据获取开辟了新路径,加速模型迭代优化。其在不同本体间的切换能力以及高效的预测和执行机制,为机器人的通用性与实时决策能力注入了新活力,将推动机器人从特定场景应用向更复杂、多元的实际场景迈进。

  • 论文地址:https://arxiv.org/pdf/2412.14803
  • 项目地址:https://video-prediction-policy.github.io
  • 开源代码:https://github.com/roboterax/video-prediction-policy
本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://www.wqgzj.cn/27221.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部