EAI 的 Foundation Model#
现在还没有成熟的、原生的、GPT 级别的具身基座;但已经有一批早期具身 foundation model 雏形。它们目前大多依赖 VLM/VM/video model 的预训练先验,通过 action expert、world model、co-training 和 post-training 把这些先验迁移到机器人控制里。
不管是 VLM as backbone 还是 WM as backbone,都可以被统一成:
其中输入的 是过去的观测, 是语言指令,
输出的 是动作, 是可选的,辅助生成的信息。
训练目标:
VLA 继承了 VLM 的语义先验,强在开放词汇、指令理解和 web knowledge;WAM/VA 继承了视频模型的时空动力学先验,强在未来状态预测、视觉鲁棒性和长程历史。它们借用了不同 foundation model 的先验,并把机器人动作接口接在了不同位置。