用大模型开卡车,Waabi开发了一个端到端的大模型Copilot4D

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

其实,Waabi起初是一家自动化驾驶平台,但看到全球生成式AI风口越刮越大并且已经进入商业化落地阶段。所以,在今年3月18日官宣与英伟达进行深度技术合作,将NVIDIA DRIVE Thor集成在自动化驾驶技术中,同时转型成为物理生成式AI驾驶平台。

NVIDIA DRIVE Thor是一个包含从底层硬件GPU、开发层SDK再到应用层辅助驾驶、自动化驾驶的全套开发平台。

其每秒可提供高达254万亿次运算,有12个外部摄像头、3个内部摄像头、9个雷达、12个超声波和1个前置激光雷达等,是全球应用最多的自动化驾驶基础开发套件之一。

NVIDIA DRIVE Thor体验地址:https://www.nvidia.com/en-us/self-driving-cars/in-vehicle-computing/

Copilot4D模型简单介绍

除了借助英伟达强大的开发生态之外,Waabi与多伦多大学的研究人员联合开发了,通过离散扩散学习自动驾驶的无监督世界模型——Copilot4D。

Copilot4D是一个专为自动驾驶领域开发的大模型,其核心技术是将观察标记化,通过向量量化变分自编码器(VQVAE)将连续的传感器数据,如激光雷达点云,转换为离散的标记。

这种转换不仅简化了数据表示,VQVAE也能将输入数据映射到有限的离散潜在空间中,有效地将高维、连续的数据压缩为低维、离散的表示,从而降低了模型的复杂度并使得数据可以被高效地解码和去噪。

在这些离散标记的基础上,Copilot4D采用了一种新颖的离散扩散模型来预测未来的观察结果,通过在数据中逐步引入噪声,然后学习逆向过程以去除噪声并重构数据。

与传统的扩散模型相比,离散扩散模型专门针对离散数据设计,能够更加高效地处理经过标记化的数据。

为了捕捉环境的动态变化,Copilot4D引入了时空变换器,基于Transformer架构在空间和时间维度上交替应用注意力机制。这种设计使得模型不仅能够理解车辆在道路上的运动模式和行人的行走路径,还能够在不同时间步骤的标记之间建立联系,生成连贯的未来环境预测。

在生成过程中,Copilot4D使用了分类器自由扩散引导(Classifier-Free Diffusion Guidance, 简称CFG)技术,通过调整模型的输出分布来增强生成数据的质量和多样性。

CFG可利用过去的代理历史,例如,过去的观察和行动,来引导未来的预测,从而显著提高了环境的预测准确性和可靠性。

Copilot4D在多个自动驾驶数据集上NuScenes、KITTI Odometry和Argoverse2进行了评测。在1秒内的预测中,Copilot4D相比之前最佳方法将Chamfer距离(一种衡量点云间相似度的指标)降低了65%—75%。

而在3秒预测时也降低了超过50%,整体性能非常强悍,这也是被Waabi应用在自动化卡车驾驶中的主要原因之一。

物理生成式AI

在获得巨额融资后,Waabi联合创始人兼CEO Raquel Urtasun发表了一篇长文,介绍了物理世界中的生成式AI。

发表评论