在深度学习变得普遍之前的2010年,感知是自动驾驶汽车能力的主要限制,但2014年之后基于深度学习的雷达技术、相机还有激光雷达,带来了技术性能的不断提升——那么无人驾驶汽车下一步还会迎来哪些挑战呢?
在过去的十年里,自动驾驶领域对机器学习的大部分对话都集中在对象检测上。对安全导航至关重要的是,我们如何才能提高自动驾驶汽车检测和跟踪动态物体的能力?在2010年,当深度学习变得普遍之前,感知是自动驾驶汽车能力的主要限制。其中ImageNet的分类精度在当时作为最先进的解决方案只能达到50%的准确率(相比之下,今天的准确率为88%)。虽然ImageNet分类并不能与当前最先进的目标检测技术相提并论,但它确实代表了计算机视觉的进步。
直到2012年,AlexNet成为ImageNet竞赛的首批参赛者之一,它利用卷积神经网络进行深度学习。AlexNet在当年的ImageNet竞赛上达到了最先进的精度,成为计算机视觉领域最有影响力的方法。
从2014年开始,基于深度学习(Deep Learning)的雷达技术、相机还有激光雷达,都开始悄悄进入自动驾驶领域。谷歌的自动驾驶汽车与一位坐轮椅的女士用扫帚追赶一只鸭子的奇遇,成为有史以来挑战感知技术的一个著名例子。
如今,基于深度学习的感知技术在自动驾驶汽车中应用很常见,我们也看到了技术性能的不断提升。近年来,VoxelNet、PIXOR和pointpillar等网络推动了计算机视觉技术的发展。尽管机器人不会像人类那样完美的感知,但计算机视觉的发展如此之快,可以说它现在已经不再是自动驾驶汽车商业化应用的主要障碍。
那么无人驾驶汽车接下来呢?预测!
既然我们已经安全地探测到周围的关键物体,接下来就是预测它们下一步的行动。正确的预测意味着我们将在正确的时间执行正确的策略,同时考虑周围人的行动。预测错误意味着我们可能把自己推入危险的境地。我们需要使用成千上万的环境输入来进行尽可能正确的预测。
正如我在第一篇关于自动驾驶汽车的强化学习和模仿学习的文章中所讨论的,自动驾驶汽车如何实现无保护(unprotected)的左转( my first post on Reinforcement Learning and Imitation Learning for self-driving cars,https://olivercameron.substack.com/p/2f2c0294-dc25-4e20-b310-eb52539bd874)。
预测是无保护左转弯最难实现的核心问题。自动驾驶汽车在转弯前必须预测周围所有动态智能体的未来动作,这一任务比自动驾驶中的其他问题需要更多的智能。人类驾驶员虽然不是完美的,但主要依赖其大脑、驾驶经验和心理暗示(如轻推或手势等),来成功地执行无保护左转弯。
虽然机器相对于人类也有一些明显的优势(比如360°的远程视觉),但与人类相比,自动驾驶技术中的预测能力可能落后很多。
感知模块检测输出自动驾驶汽车一定半径内的一组目标 (如车辆、行人等),然后输入给预测模块;
预测模块使用当前的方位、速度和之前的观察来生成关于每个对象在接下来5秒内可能做什么的预测;
通过将所有这些预测输入一个算法,最终生成一个关于自动驾驶汽车可以执行的最安全操作的假设;
自动驾驶汽车实时计算,每100毫秒重新评估决策。
可以看到,这种传统的计算方式会导致不安全和潜在危险的驾驶行为,尤其是在密集的城市环境中。在过去的几年里,我们见证了用深度学习方法进行预测的很多实验。这些方法有可能显著提高预测的准确性,将它们从机器人转变为类人。
用数据驱动的方法来解决这些传统的预测问题,与2010年的深度学习如何取代传统认知技术惊人地相似。
下面是一些实际的例子:
克鲁斯的感知工程师做了一次伟大的演讲,关于他们如何将预测问题转化为一个分类问题。我对他们构建的工具特别感兴趣,这些工具支持快速实验,并具有快速学习场景和自动标记的能力。
Uber分享了他们在DRF-Net上的工作,DRF-Net增强了行人预测能力:“大量的实验表明,我们的模型表现出了高概率、低误差、低熵和多模态的强大特性。”DRF-NET离散预测的强大性能对于基于成本和约束的机器人规划是很有意义的。
苹果发表了一篇新的强化学习论文,题为《最坏策略梯度》(Worst Cases Policy Gradients):“构建智能系统的关键挑战之一是在复杂环境中做出稳健、安全的顺序决策的能力。”
ISEE在CVPR 2019发布了一项学习预测方法:“这种MAT编码能够自动处理不同种类的场景,并通过对MAT的卷积运算,预测场景中所有Agent的轨迹,其计算复杂性与Agent的数量成线性关系。”
虽然预测还没有达到它所需要的性能,但我很清楚,我们将看到数据驱动方法在预测性能上的巨大飞跃,这与深度学习如何影响传统感知非常相似。这些即将到来的飞跃将极大地改善自动驾驶汽车的决策,为乘客带来更安全、更顺畅的乘坐体验。