随着全球顶尖科技公司如谷歌、OpenAI和微软对具身智能的关注,这一领域正快速迈向其标志性的时刻。最近在CES展会上,英伟达创始人兼首席执行官黄仁勋宣布推出了一款新的物理AI大模型Cosmos,这款模型允许开发者基于文本、图像和视频等输入以及机器人传感器或运动数据生成符合物理规律的视频内容。这不仅有助于模拟现实环境中的情况,比如仓库操作、工厂自动化或者交通状况,还可以用于训练机器人和自动驾驶汽车。
物理AI大模型,即世界基础模型,是理解自然界语言、物理属性及空间定位的关键技术。它能够合成与物理特性相关的数据,对于推动智能汽车和人形机器人的普及至关重要。尽管相较于语言模型的发展速度,物理AI模型还处于早期阶段,并面临开发成本高和技术挑战等问题,但它们的重要性不容忽视。
英伟达的Cosmos模型将采用开源形式发布,首批用户涵盖了一系列国内外的机器人和汽车制造商。自2024年6月起,英伟达就已经开始利用仿真框架RoboCasa进行机器人训练实验,证明了合成物理数据的有效性。Cosmos的推出旨在降低进入门槛,使更多开发者可以参与到通用机器人技术的发展中来。
其他公司也在世界基础模型方面取得了进展。例如,谷歌于2024年12月发布了Genie2,一个能够生成逼真3D世界的大型模型;而1XTechnologies则推出了一个人形机器人的世界模型,用以预测不同动作下的未来场景。此外,视频生成模型也被视为构建世界基础模型的一个重要途径,Sora和Runway等企业也表达了进军该领域的意愿。
华泰证券的一份最新研究报告指出,受到文本大模型发展的启发,人形机器人也开始探索构建自己的具身大模型。报告强调了解决数据问题的重要性,并提到合成数据对于促进机器人发展的潜力巨大。通过合成数据,学界已经验证了这种方法的有效性,意味着机器人大脑正在经历类似于ChatGPT那样的变革时刻。