加州大学的研究团队与英伟达携手推出了一款名为“NaVILA”的全新视觉语言模型,该模型为机器人导航技术提供了创新方案。NaVILA模型通过结合视觉编码器与大语言模型,使机器人能够解读视觉信息,同时理解和执行自然语言指令,从而在导航中实现更多的自主性和灵活性。
视觉语言模型是一种多模态生成式人工智能模型,能够在接收到文本、图像及视频等多种形式的信息提示时进行推理。NaVILA通过将大语言模型与视觉编码器结合,使得模型不仅仅停留在“理解”文本层面,而是进一步具备了“视觉”能力。传统的机器人导航依赖于已绘制的地图和复杂的传感器设备,而NaVILA的推出颠覆了这一常规。机器人只需理解人类自然语言指令,并结合视觉图像和激光雷达的实时信息,就能感知并适应周围的环境,进而自主导航到指定目的地。
NaVILA的优势不仅在于不再依赖预设地图,还在于它将导航技术从轮式机器人拓展到了足式机器人。这意味着机器人在面对复杂的场景时,能够跨越障碍,自适应地规划路径,显著提升了其环境适应能力。在实测中,加州大学的研究人员使用了宇树Go2机器狗和G1人形机器人进行实验,结果显示,在家庭、户外和工作环境中,NaVILA的导航成功率高达88%,在执行复杂任务时也有75%的成功率。
此外,NaVILA模型在多方面展现了其技术优势。与传统视觉模型相比,它在训练成本上减少了4.5倍,同时在微调过程中的内存需求降低了3.4倍。这一优化得益于“先扩展后压缩”的技术,使得视觉信息在输入时被合理压缩,既减少了数据大小又保留了关键信息,确保了模型的高效运行。NaVILA在多模态推理方面能力突出,可以根据单一图像或视频信息回答多个问题,展现出卓越的解读和推理能力。虽然目前该模型尚未在Hugging Face平台上发布,但英伟达已承诺将很快提供代码和模型,以推动研究人员和开发者的实践与应用。