作者简介:william,自动驾驶软件工程师(感知团队 leader),知乎专栏「自动驾驶全栈工程师」。
在过去的十年,自动驾驶从大部分人眼里的「完全不可能」变成了「一定能实现」。包括我在内的无数对自动驾驶充满信念的年轻人都投入到了这一领域内。
但其实我们对完全自动驾驶如何实现,怎么样才能盈利以及到底什么时候才能最终普及充满了困惑。
因此我将在我的这篇文章中结合马斯克的 2020 自动驾驶愿景,从技术、社会接受度及商业应用的角度分析这些问题。
01
马斯克的 2020 自动驾驶愿景
特斯拉首席执行官埃隆·马斯克在上个月上海世界人工智能大会发布的视频中说到:「我觉得我们已经非常接近 L5 级自动驾驶了。我有信心,我们将在今年完成开发 L5 级别自动驾驶的基本功能」。
这一声明引爆了行业讨论,很多媒体对他的陈述断章取义并部分夸大,宣称特斯拉能在 2020 年实现「L5 完全自动驾驶」。
我们先讨论「L5 级别自动驾驶的基本功能」。
我个人非常相信,在受限场景下,L5 自动驾驶的基本功能是能很快实现的,任何一家顶级车厂都有实力在今年造出一台没有方向盘在测试场狂奔避障的 L5 自动驾驶汽车,但是没有然后。
如果马斯克仅仅讨论「L5 级别自动驾驶的基本功能」,那么该新闻对我没有吸引力,因为大众搭载 L4/L5 自动驾驶技术的Sedric早在今年年初在汉堡的测试场就已经开发完成了。
世界上第一台通用计算机「ENIAC」于 1946 年诞生,但是直到 20 世纪 80 年代才作为个人电脑大规模普及。一项技术从一开始的科研到产品,再到商品普及的关键,是成本与体验。目前的 L5 自动驾驶样车均不满足这两项要求。
根据 SAE 对于自动驾驶级别的划分,L5 自动驾驶汽车要求自身可以在任何情况下进行所有驾驶,并且车内人员只是乘客,无需参与驾驶。因此全自动驾驶汽车甚至不需要方向盘和驾驶员座椅,乘客可以在汽车上花费更多的时间从事更有成效的工作。
「我们非常接近 L5 自动驾驶」,这句话没错,特斯拉很有可能今年年底就能完成 L5 自动驾驶汽车的基本功能。但「基本」是否意味着「完整且可以部署」?政府和监管机构是否允许他们上路?这些问题马斯克都没有解释。他的话存在很大的解释空间。
实际上在许多工程问题中,尤其是在人工智能领域,最后一英里往往需要很长时间解决,「接近」永远不是「等于」,能在测试场跑不代表能应付真实场外道路。
更重要的是,自动驾驶的普及不单单是技术上的事,更需要整个社会愿意接受这项技术带来的变革。
当前市面上的自动驾驶技术,包括特斯拉都是处于 L2 级别,即部分自动化,驾驶员必须始终保持对汽车的控制,并在自动驾驶功能开启时将手放在方向盘上。
实际上特斯拉在逐步将 L3 级别自动驾驶的功能部署在对外宣称的 L2 级别自动驾驶平台上,如红绿灯检测及针对目的地导航的Full Self-Driving Capability,让消费者获得超出别家 L2 级别自动驾驶的体验,但是自身不需要承担 L3 级别的法律风险及伦理悖论。
毕竟对于消费者来说,他们不管你 Level 几,只关注功能是否新颖可靠,如果此时价格也不超出他们的承受能力,那绝对可以考虑入手了。
马斯克很多话的目的,其实就是为了让大家相信特斯拉的技术实力,相信特斯拉纯视觉方案的 Full Self-Driving Capability,从而让更多的普通大众愿意为特斯拉买单。马斯克是一个伟大的科学家,但这绝对不会妨碍他成为一个狡猾的商人。
现在我们来讨论我们工程师感兴趣的,「特斯拉的纯视觉深度学习解决方案能否在 2020 年甚至接下来的几年内实现 L5 全自动驾驶?」
我的答案是:不能。
以下将从特斯拉的技术路线、L5 自动驾驶的社会接受度及商业模式方面分析「我为什么认为马斯克的 2020 L5 自动驾驶愿景实现不了」。
02
特斯拉的技术路线
马斯克在以往讲话中提出的另一个重要的观点,他相信特斯拉汽车「仅通过改进软件即可实现 L5 自动驾驶」。
目前的 L4 自动驾驶公司,如 Waymo 和 Uber 都使用了激光雷达模块来创建汽车周围环境的高精度三维地图,以此弥补纯视觉感知的不足,提供更多的安全冗余。
而特斯拉目前主要依靠基于摄像机的纯视觉算法来识别交通场景,通过深度神经网络从安装在车辆周围的八个摄像头的视频源中检测道路、汽车、物体和人。虽然特斯拉还配备了前置雷达和超声波雷达用以辅助,但是效果有限。
马斯克的逻辑是:人类大多数情况下仅仅依赖于自身的视觉来识别周围的物体,人眼能做到的,摄像头同样也能做到。
这个逻辑并不完整,首先人类的眼睛背面有连接到大脑的 3D 映射硬件来检测物体并避免碰撞,至少 2020 年的摄像头并没有这一映射模组。
其次,当前的深度神经网络充其量只是对人类视觉系统的粗略模仿,只是模拟了人类大脑皮层神经细胞的一小部分。
深度学习的局限性在于,它需要大量的训练数据才能可靠地工作,当面对训练数据中未包含的新情况时,它们没有人类的创造性和灵活性。
因此依靠现存的深度神经网络,我们无法实现「西部世界」中雷荷波的万物皆可预测。
最后,人类的眼睛经过数百万年的进化,视觉皮层对特定的事物如物体形状、特定的颜色、纹理以及运动追踪非常敏感。我们的汽车、道路、人行道、路标、红绿灯等交通设施和建筑物都是依据人类的视觉喜好设计。
我们根据人类视觉系统的总体偏好和敏感性,有意识或无意识地选择了这些物体的颜色、纹理和形状。
人工智能往往在后天上去学习了解部分这些特性,而人类早已经在先天上具备这种优良的识别能力。
也许有一天摄像头也能达到人眼一样的效果,但这一天肯定不是今天,也不是今年。
关于深度学习的数据依赖性,马斯克在他的讲话中也提到了,Tesla Autopilot 在中国之所以不能像在美国那样好用,是因为特斯拉视觉算法的大多数培训数据都来自美国,这其实和奥迪 A8 的 L3 自动驾驶功能在中国的应用非常受限的原因是一样的。
由此引出了一个概念:深度学习的长尾问题。
所谓深度学习的长尾问题(Long-tail problem)就是模型所面临的极端情况或者「Corner case」的数量是未知的,很有可能是无限的。
人类驾驶员能够迅速适应新的环境和条件,例如新的城市或城镇,或者以前从未经历过的天气条件(积雪、大雾、泥泞小路等)。
当我们处理新的情况时,我们会使用直观的物理学、常识以及对世界如何运转的知识来做出理性的决策。
我们了解因果关系,并可以确定哪些事件导致了其他事件。我们还了解环境中其他理性行为者的目标和意图,并可靠地预测其下一步行动。但是目前,深度学习算法还没有这种功能,因此需要针对每种可能遇到的情况进行预训练。
即使特斯拉的深度学习算法适应的环境中如高速公路,它们也不擅长处理训练场景之外的情况,比如前两个月在台湾发生的特斯拉撞入前方倾翻车辆的事件。特斯拉可以不断更新其深度学习模型,以应对所谓的「Corner case」,但是实际上这种极端情况是未知的。
马斯克在他的讲话中提到,「我认为实现自动驾驶 L5 目前不存在底层的根本性的挑战,但是有很多细节问题。我们面临的挑战就是要解决所有这些小问题,然后整合系统,持续解决这些长尾问题。你会发现你可以处理绝大多数场景的问题,但是又会不时出现一些奇怪不寻常的场景,所以你必须有一个系统来找出并解决这些奇怪不寻常场景的问题。这就是为什么你需要现实世界的场景。没有什么比现实世界更复杂了。我们创建的任何模拟都是现实世界复杂性的子集」。
他认为 L5 自动驾驶没有根本性挑战的信心来源于特斯拉能从全世界收集来自现实世界的数据解决自动驾驶问题,特斯拉通过收集的数据不断模拟虚拟场景并微调其算法,会让特斯拉最先逼近现实场景中深度学习长尾问题的极限值。
解决长尾问题上目前有两种,一种是在大数据集上训练更大、更复杂的神经网络,最终在认知任务上达到人类水平的表现。另一种是在大数据集上直接拟合,找到可以覆盖问题空间更大范围的正确数据分布。
这些方法都是基于大数据,如果这些理论是正确的,那么特斯拉确实可以在可预见的未来通过收集和有效利用越来越多的汽车数据实现 L5 全自动驾驶。
但是有些人认为现有的深度学习理论从根本上是有缺陷的,因为它只能插值。人类对世界的感知不仅有环境信息提取,也有逻辑因果。
而深度学习没有探索环境的因果模型,这就是为什么深度学习工程师需要精确地训练他们想要解决的问题的不同的细微差别。
无论你在多少数据上训练一个深度学习算法,你都不能完全相信它,因为总是会有许多新奇的情况出现导致推理失败。
相比而言,人类的大脑不需要明确的培训,它从每个环境中提取高层次的规则、符号和抽象概念,并用它们来推断新的设置和情景。
因此,如果深度学习算法没有对抽象网络和符号操作的利用,没有整合常识、因果关系和直觉物理学,它将永远无法达到人类水平的驾驶能力。
当然目前有很多对于深度学习网络的改进,如:
Hybrid artificial intelligence:结合了神经网络和符号人工智能,赋予深度学习处理抽象的能力;
System 2 deep learning:使用了一种纯神经网络的方法来为深度学习提供符号处理能力;
Self-supervised learning:通过自身探索世界来学习,而不需要人类的大量帮助和指导;
Capsule networks:通过观察像素来创建一个准三维的世界表示,为对象的不同组件之间建立连接。
这是深度学习领域最前沿的早期研究,但是还没有准备好被部署到自动驾驶汽车和其他人工智能应用中。
综上所述,特斯拉的纯视觉深度学习解决方案没法在 2020 甚至及接下来的几年内实现 L5 全自动驾驶。
接下来我们来讨论「社会是否做好了接受 L5 全自动驾驶的准备?」
03
L5 自动驾驶的社会接受度
标准法规
在特斯拉目前宣称的 L2 自动驾驶中,驾驶员被要求对他们自己的所有驾驶行为负责。
对于由人驾驶汽车引起的事故,我们有明确的规章制度。但是自动驾驶汽车仍然处于灰色地带,即便是 L3 级别自动驾驶的事故责任划分,目前都没有任何国家出具详细的法律条文。
而 L5 自动驾驶汽车,驾驶员不需要为事故承担任何负责,那么制造和提供自动驾驶汽车的公司分别要承担怎样的责任?保险公司又应该承担怎样的责任?一直不愿意对 Autopilot 事故负责的特斯拉是否愿意承担这可能的责任?
人类的自我导向
推崇自动驾驶 AI 的人往往认为,人类驾驶员也会犯很多错误,而自动驾驶汽车犯错的概率相对于人类要小了很多,会让驾驶变得更加安全。
对于这一点,我是存在疑虑的。首先由于疲倦、大意、酗酒等因素,人类在驾驶中确实会犯很多错误,但是目前的样本数量和数据分布无法得出驾驶员和 AI 之间的事故发生频率的准确比较。
其次,与自动驾驶汽车背后的 AI 算法相比,也许人类错误频繁,但却很少出现怪异的现象,对于怪异的现象人类更容易预测和规避,比如有理智的人类驾驶员都不会往倾翻的卡车上撞。
最后,人类往往会去理解和接受自己主观行为带来的后果,但是无法接受自己的生命被别人支配,被动地承担所有的致命后果,人们更期待自动驾驶的安全性远超自身。
因此就引出了下一个问题:安全性。
安全性与公众信任
马斯克在他的讲话中提到了一个问题:「L5 级别自动驾驶的安全性需要达到要求的两倍?三倍?五倍?还是十倍?人类的可接受水平到底是多少?」。
安全性的评判没有一个统一的标准,至少与人类同等的安全性是绝对不够的,只有超出预期才有价值,监管机构也不会认可 L5 自动驾驶达到与人类驾驶员同等的安全性是足够的。
但就目前的现状来看,深度学习算法的安全性还远远比不上普通人。
人类的推理不仅是对信息的提取和分析,还反应了人的思想,这些因素的综合使人类能够做出普遍正确的判断。
在任何情况下,人们都更倾向于将责任归咎于技术而不是人类自己,这就导致了人们对技术的信任感缺失,公众信任的缺失会影响了整个汽车行业。未来势必会有类似图灵测试一样的实验来评判自动驾驶人工智能的安全性。
那么要实现类似人类推理一样的安全性,除了 AI 视觉算法的进步,我们也可以通过增加约束,使得 AI 算法和硬件正常可靠的工作。给 AI 算法加设火车轨道,火车脱轨的概率应该足够小了吧?
这个约束就是:车路协同。
车路协同
我们可以改变道路和基础设施,以适应汽车中存在的硬件和软件。例如,我们可以在道路、分隔线、汽车、道路标志、桥梁、建筑物和物体中嵌入智能传感器。
这将允许所有这些对象相互识别并通过无线电信号进行通信,也就是V2X。
计算机视觉在自动驾驶中仍将发挥重要作用,但它将作为汽车及其环境中存在的所有其他智能技术的补充。
随着 5G 网络的铺展以及智能传感器和互联网连接的价格下降,以 V2X 为主导的自动驾驶方案会更加常见。
但是目前道路基础设施现代化的成本并未纳入大多数自动驾驶发展的预测,在广泛区域内运行的 L5 自动驾驶可能需要大量基础设施投资,才能在整个范围内可靠运行。
技术和配套设施的变革往往需要企业与政府持续的巨额投资和时间投入。但对于地方政策制定者来说,自动驾驶配套基础设施的建设需要考虑很多因素。
首先,尽管地方政策将在基础设施支出和建设方面会发挥核心作用,但是全国各地不同的经济、政治、文化、地理和天气状况将影响建设的速度和质量。
其次,在取得技术先发的光环优势之后,各地政府会更多考虑设施的有效利用、投资的回报、各辖区之间的利益均衡、给予的政策激励、人才培训及劳动就业等。
最后,万物互联带来的隐私和安全威胁也会是影响道路基础设施现代化的因素之一。
地理围栏
地理围栏是自动驾驶/高级辅助驾驶技术量产的关键,也是未来主机厂部署 L2+ 自动驾驶时的主要开发任务之一。
地理围栏的意思是,只让自动驾驶技术在功能经过充分测试和认可的区域,有智能基础设施以及针对自动驾驶量身定制的法规的区域中操作。
也就是限定哪些道路和区域可以开启车辆自动驾驶功能,哪些道路是默认关闭这一功能的。
地理围栏的设定需要考虑到城市和高速公路驾驶之间的复杂性差异,基础设施和驾驶员行为的区域差异以及某些路段能见度差或交通设施不正常的情况。
地理围栏其实是一种技术过渡的措施,主要是考虑到当前的深度学习状态,在一夜之间推出全自动驾驶技术的前景并不乐观,尽最大可能地平衡自动驾驶的体验与安全性是主机厂当前开发的主要目标。
随着技术的进步、基础设施的发展以及法规的适应,这些限制会逐渐减少,从而让现有的高级辅助驾驶平稳并逐步地过渡到全自动驾驶。
虽然设计地理围栏内容很无聊,但是我非常建议自动驾驶公司拥有自己的地理围栏数据库,这会极大有利于自身技术方案在不同客户间和不同区域内的快速部署。
新事物的变革,社会往往需要很长的时间才能适应这一变化,除了技术本身的演进,标准法规、伦理、公众信任等还有漫长的路要走。
实现 L5 自动驾驶,不仅意味着技术上达到了,还意味着产品能卖出去给顾客使用。
因此我们来讨论下 L4/L5 自动驾驶是否具有成熟的商业模式。
04
L5 自动驾驶的商业模式
正如我们的道路随着从马车到汽车的过渡而发展一样,随着软件驱动和自动驾驶汽车的出现,城市交通可能会经历更多的技术变革。
可以预测到的是,自动驾驶技术会在很长一段时间扰乱城市交通并使其深层变革,但是这一转变不会突然发生,至少在接下来的十年中,全自动驾驶将仅限于有限的地理和气候区域。
伴随着汽车电气化、万物互联、跨车型服务模式的发展,越来越多的自动化出行系统将在随后的几十年中蓬勃发展。
由此产生了用于货物和服务分配的新模型——物理互联网。
未来十几年自动驾驶的市场规模预计是数千亿美金,但是自动驾驶背后随之而来的城市交通出行的变革、劳动力升级会带来数万亿美金的市场。
自动驾驶的盈利不单单是出售车辆技术解决方案,参与并在「物理互联网」中提供多样化的服务,即使提供硬件基础和软件平台,也会获得匹敌甚至超出出售技术方案本身的收益。
在 MIT 自动驾驶未来报告中,研究人员将自动驾驶的未来商业之路分为 4 种模式:
自动出租车队
Waymo、Uber、DIDI 都组建了自己的自动驾驶车队,虽然这一领域具有极佳的商业价值和明星效应,可以进一步解决最后一公里的难题,但是在可见的未来会被限定在特定的区域或者路段内,比如从市区去机场。而且驾驶员的监督仍然是必不可少的。
自动装卸车和客车
由于目前自动驾驶车辆的行驶仍然需要限制在严格的地理围栏中,固定路线的公共交通其实更容易满足这一要求。
我们可以重塑固定线路的道路设施来增加地理围栏区域,从而让自动装卸车和客车更容易处理沿线驾驶场景。
对于政府来说,自动公交车具有可预测的环境成本和收益,固定的行人出行方式、更大的公共交通利用率、还可以有效改善交通拥堵、提早覆盖地铁等重型交通未覆盖的区域、同时增加基础就业机会、提高城市形象,因此会作为政府首要推导和支持的自动驾驶商业模式。
自动长途卡车
自动长途卡车同样具有可预测的环境成本和收益,并且有着固定的交通场景(高速公路),可能会成为最先商用的自动驾驶技术。
通过远程监控员,各种人车数量之间的联排(多辆自动驾驶卡车跟随头车驾驶员的操控)以及给驾驶员提供途中睡觉的时间,卡车公司可以减少卡车路线中驾驶员的需求量,缩短运输时间。
因此自动驾驶卡车对客户企业有着很强的经济吸引力,对自动驾驶公司来说也有着很大的利润空间。
驾驶员辅助型个人汽车
未来十年,会有更多的主动安全功能出现,驾驶员高级辅助系统依旧是个人车辆自动驾驶主要的商业应用。
L2/L3 自动驾驶车辆逐渐普及,但是 L4/L5 的个人车辆自动驾驶可能得在前面几个模式实现之后,才会最终普及。
原因在于,个人车辆的 L4/L5 驾驶区域是不应该受到广泛限制的,而且 L4/L5 车辆的硬件成本势必不低,个人车辆对于安全性的要求也是最高的,如果不能给驾驶员提供广泛可用的自动驾驶场景,那么这一功能对于普通消费者来说是极不划算的,这一技术在个人汽车领域的普及也将会遥遥无期。
除了上述车辆商业模式之外,自动驾驶技术配套基础设施的建设,由自动驾驶拓展出来的新型交通出行服务都是这一领域未来的商业盈利点。
甚至在未来的很长一段时间,搞自动驾驶基建赚的钱都比出售自动驾驶技术方案赚得多。
在上述自动驾驶商业模式中,L4 自动驾驶卡车可能在 2030 年左右最先普及,而 L5 全自动驾驶尤其是个人汽车处于许多科学、法规、社会和哲学领域的交汇处,需要整个社会为之准备和改变,很有可能 2050 年左右才能最终实现,也很有可能永远都实现不了,因为 L5 的核心是道路万物皆可预测,而人类永远是不守规则的生物。
最后我想说的是,其实 L5 自动驾驶是 L4 场景的不断延伸,L4/L5 自动驾驶工程上一般会一起讨论。
如果 99% 的使用场景都可以实现自动驾驶,那么它的价值其实已经足够了,没必要为了最后的 1% 去付出远超 1% 的代价,更不要为了追求标准而去开发自动驾驶。
自动驾驶的目的永远是为了让驾驶更加安全和智能!
综上所述,我不认为特斯拉在技术上,社会接受度以及商业模式上做好了在 2020 年甚至未来几年内实现 L5 自动驾驶的准备。