12月11日,小鹏汽车董事长何小鹏宣布,小鹏的VLA 2.0(视觉语言动作模型)将在下个季度发布。他表示,作为首个版本,压力很大。他还与自动驾驶团队打赌:如果2026年8月30日前,小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂;否则,自动驾驶负责人需在金门大桥裸跑。

此前一天,理想汽车自动驾驶研发高级副总裁郎咸朋回应了宇树科技创始人王兴兴对VLA模型的质疑。他认为,模型架构不如数据重要,而VLA是最佳方案。近年来,辅助驾驶行业经历了多次技术变革,从激光雷达 高精地图到BEV Transformer,再到端到端AI。进入2025年,VLA和世界模型成为两种主要技术路线。VLA通过视觉、语言和动作结合,实现环境感知和决策执行。清华大学助理研究员颜宏伟认为,VLA的核心在于引入思维链,提高可解释性。元戎启行CEO周光也表示,VLA具备强大的思维链能力,能更好地适应复杂道路环境。然而,王兴兴持怀疑态度,认为VLA的数据质量不足。郎咸朋则强调,数据闭环是关键,理想拥有数百万辆车的数据支持。华为智能汽车解决方案BU CEO靳玉志则更看好WA(世界行为模型),认为直接通过视觉输入控车更为有效。蔚来、商汤等企业也在布局世界模型。尽管不同企业观点各异,但VLA和世界模型并不矛盾,未来有望深度融合。国海证券指出,两者在技术上并非对立,而是互补。小鹏汽车正尝试将VLA与世界模型结合,以实现更强的通用具身智能。