目前,自动驾驶领域已经出现很多数据集,例如 KITTI、Oxford、Cityscape、nuScenes、BDD100K 等。
但在自动驾驶创业公司代表 Waymo 看来,到了 2019 年,KITTI 这样的数据集已经太小了,在使用过程中需要大量的时间做数据增强、防止过拟合,算法结果也不能很好地泛化到更大数据集上。
因此,在 CVPR 2019 现场,Waymo 首席科学家 Drago Anguelov 发布了包含完整传感器信息的全新标注数据集 Waymo Open Dataset,它与 KITTI、NuScenes 等数据集的对比数据如下,在传感器配置、数据集大小上都有很大的提升。
Waymo 数据集的传感器包含 5 个激光雷达、5 个摄像头,激光雷达和摄像头的同步效果也更好。
更重要的是,Waymo 数据集包含 3000 段驾驶记录,时长共 16.7 小时,平均每段长度约为 20 秒。整个数据集一共包含 60 万帧,共有大约 2500 万 3D 边界框、2200 万 2D 边界框。
此外,在数据集多样性上,Waymo Open Dataset 也有很大的提升,该数据集涵盖不同的天气条件,白天、夜晚不同的时间段,市中心、郊区不同地点,行人、自行车等不同道路对象,等等。
Drago Anguelov 介绍说,Waymo 将在 7 月份发布 1K 数据集,且将在近期公布数据集基准并组织竞赛。
除了发布数据集,此次演讲也透露了 Waymo 的传感器配置,如下图所示,包括视觉系统、激光雷达系统和雷达系统。
目前,Waymo Open Dataset 尚未公开,但官网已经开始注册,感兴趣的读者可从以下链接注册邮箱。只要数据开放,注册用户就能收到通知。