StarVLA：统一的 VLA Infra

EAI 的 Foundation Model#

现在还没有成熟的、原生的、GPT 级别的具身基座；但已经有一批早期具身 foundation model 雏形。它们目前大多依赖 VLM/VM/video model 的预训练先验，通过 action expert、world model、co-training 和 post-training 把这些先验迁移到机器人控制里。

不管是 VLM as backbone 还是 WM as backbone，都可以被统一成：

\pi(a_{t:t+k}, y_{aux} \mid x_{\leq t}, l)

其中输入的 $x_{\leq t}$ 是过去的观测， $l$ 是语言指令，

输出的 $a_{t:t+k}$ 是动作， $y_{aux}$ 是可选的，辅助生成的信息。

训练目标：

L = L_{action} + L_{aux}

VLA 继承了 VLM 的语义先验，强在开放词汇、指令理解和 web knowledge；WAM/VA 继承了视频模型的时空动力学先验，强在未来状态预测、视觉鲁棒性和长程历史。它们借用了不同 foundation model 的先验，并把机器人动作接口接在了不同位置。

EAI 的 Foundation Model#

从配置文件开始#