Candlest 的博客

Back

EAI 的 Foundation Model#

现在还没有成熟的、原生的、GPT 级别的具身基座;但已经有一批早期具身 foundation model 雏形。它们目前大多依赖 VLM/VM/video model 的预训练先验,通过 action expert、world model、co-training 和 post-training 把这些先验迁移到机器人控制里。

不管是 VLM as backbone 还是 WM as backbone,都可以被统一成:

π(at:t+k,yauxxt,l)\pi(a_{t:t+k}, y_{aux} \mid x_{\leq t}, l)

其中输入的 xtx_{\leq t} 是过去的观测,ll 是语言指令,

输出的 at:t+ka_{t:t+k} 是动作, yauxy_{aux} 是可选的,辅助生成的信息。

训练目标:

L=Laction+LauxL = L_{action} + L_{aux}

VLA 继承了 VLM 的语义先验,强在开放词汇、指令理解和 web knowledge;WAM/VA 继承了视频模型的时空动力学先验,强在未来状态预测、视觉鲁棒性和长程历史。它们借用了不同 foundation model 的先验,并把机器人动作接口接在了不同位置。

从配置文件开始#

StarVLA:统一的 VLA Infra
https://blog.candlest.cc/blog/robotic/starvla
Author Candlest
Published at 2026年5月9日