一段汽车经过墓地时辅助系统“白日见鬼”的视频引起热议,汽车视觉识别到底依靠什么来判断前面有没有人?
撰文/记者/赵天宇 编辑/刘昭
新媒体编辑/陈炫之
采访专家
龚建伟(北京理工大学机械与车辆学院副教授、智能车辆研究所所长)
殷 玮(上汽集团智能驾驶环境融合系统经理)
近日,有网友发布一则特斯拉行经墓地的视频。视频中,车辆行驶过程中,屏幕上的雷达显示,前方出现了行人从车辆前路过,但观看录制的视频,却未见一人。
(点击这里观看)
视频一经上传,迅速成为了业内外的热点话题,毕竟在墓地这样的环境当中,这种“白日见鬼”的场景,足够让人胆战心惊。
其实在人工智能、自动驾驶技术不断发展的当下,这样的小插曲,也给自动驾驶两大流派之一的“纯视觉方案”未来发展,提供了更多的“想象”空间。
▼▼▼
“活见鬼”还是“真故障”?
在墓地识别出人影?这让许多人感到惊悚不已,但认真梳理一下不难发现,对于特斯拉而言,这并非偶然事件。
此前也有一位网友发布过类似的视频:一辆特斯拉行驶在一隧道内,突然车辆中控雷达探测到两侧有公交车出现,从雷达监控可见车辆右侧出现一辆类似公交车的物体,这个物体持续出现了10分钟左右。
△在空无一人的隧道中感应出公交车
无独有偶,另一位网友也在空荡荡的地下车库里发现,他的特斯拉感应到了虚拟人的现象,而且“有图有真相”。
△特斯拉在地库当中识别出人像
上汽集团智能驾驶环境融合系统专家、特斯拉研究者殷玮认为,按特斯拉自动驾驶系统的特点,若检测到有行人从车前方经过,会触发AEB自动辅助刹车系统。但这些视频当中无一例外的都没有人,因此这是视觉识别系统出现了问题。
据了解,特斯拉自研的自动驾驶系统名叫Autopilot,但因为翻译的问题,也有人解释为自动辅助驾驶系统。它主要开发路线是机器视觉方向,依靠摄像头、毫米波雷达等部件采集车辆周围和前方的环境信息,并通过计算模块,对相关情况进行分析判断,反馈给驾驶员或系统本身,供参考和决策。
“视觉识别系统的基底是深度学习模型,深度学习是一种通过训练网络模型得到的结果,本身也做不到100%的准确,出现误判断是正常的现象,只是在墓地这种特殊环境当中,看起来很有话题性而已。”殷玮说。
特斯拉客服的说法也证实了殷玮的观点,此前有媒体记者就此事联系过特斯拉客服,客服表示,车主长时间不洗车,太多灰尘覆盖在传感器上,导致传感错误是有可能的。并强调说,不能完全通过屏幕画面去判断车道具体情况。不同车辆,感应的失误情况不同,不能一概而论。
实际上,除了在墓地感应到行人这种“无中生有”的操作以外,Autopilot的“有中生无”更加让人头疼。在一次次惨痛事故中,开启Autopilot系统的特斯拉汽车,仿佛真的“瞎了眼”,先后撞上过前方的清扫车、拖挂车、水泥墩、消防车……
无论是墓地检测到行人也好,还是自动驾驶时撞上前方障碍物也罢,这些在普通人眼中毫无难度的识别,为什么到了视觉识别系统当中,就成为了棘手的难题?难道这些传感器都是形同虚设吗?
▼ ▼ ▼
“端到端”为何特别难?
其实最简单的原因就是,目前在感知层面,视觉识别的方案,满足不了复杂环境下的感知需求。
北京理工大学机械与车辆学院副教授、智能车辆研究所所长龚建伟解释说,视觉方案当中,摄像头获取的视频数据与人眼感知的真实世界最为相似,也最接近人类驾驶的形态。摄像头怎样识别物体?这需要用机器学习来实现。
但深度学习需要大量的样本做支持,就拿静态物体来说,形态千差万别,而对于汽车来说,路上的各种物体又是变幻莫测,很多样本摄像头根本就没见过, “学习”都谈不上,就更不要说“深度”了。
△图片来源/Wired
所以撞消防车车尾或奇特形状隔离墩栏杆等事故,或者在空无一人的地方识别出行人,应该就是没有进行过样本训练,或者训练度不够所造成的。
和手机、相机的摄像头一样,汽车摄像头对感光的要求同样特别高,所以对天气和照明条件特别敏感,非常容易受到恶劣环境的影响,而且无法直观判断景深,对算法、算力的要求都很高。
所以单纯依靠摄像头的纯视觉方案,也被称之为“端到端”的驾驶模式,也就是完全不经过中间决策的一种纯视觉方案。在殷玮看来,“端到端”的驾驶模式需要针对不同车型重新训练,达不到软件的零边际成本,即使车辆型号一致,出厂前也要对摄像头等传感器进行参数调整,以达到最佳效果,自然又增加了不小的成本。并且系统的可解释性比较差,只能根据目前已知的数据进行推断,对于陌生数据的适应性也不太好。“这种纯视觉方案还只停留在学术上,没有任何工程价值。”殷玮表示。
△图片来源/tesla
目前业界并没有真正意义上的,纯视觉的识别方案,就连特斯拉也不得不拉来毫米波雷达助阵。毫米波雷达具有传输距离远、性能稳定、成本可控等优点,但其同样也存在角度分辨率弱、辨识精度低等缺陷,尤其是受电磁波反射敏感度影响,有些橡胶类静态物反射不好,识别也会比较困难。
比如说,毫米波雷达因为分辨率不高,空间分辨率较差,在道路上遇到金属路牌或者停放的汽车时,只能“看到一个大概的形状,但不知道具体是什么”。所以,在算法上只能忽略相对于路面不移动的雷达回波。否则,每次经过路标等静物时,汽车都会惊慌失措,也就谈不上什么驾驶了。
多传感器融合会是应用终局吗?
除了特斯拉以外,目前入局自动驾驶的车企,在技术路线上都不约而同地选择了激光雷达路线用性能更强的激光雷达,把所有角落都扫一遍,再加上一些学习算法,就可以勾勒出障碍物的范围,知道车往哪里开了。
从谷歌Waymo、通用 Cruise再到国内的百度Apollo、文远知行,几乎所有发布 L4 级自动驾驶乘用车解决方案的公司,车顶上都出现了显眼的激光雷达。
但激光雷达也不是“通关钥匙”,虽然它的探测距离和准确性都大大高于摄像头,但不能识别颜色,无法完成追踪目标的任务,雨雾天的抗干扰性也不好。最为重要的是,激光雷达非常昂贵,给自动驾驶硬件增加了大量费用。
作为产业从业者,殷玮对纯视觉技术路线并不看好。如果以自动驾驶辅助系统为标准来看,Autopilot目前是符合标准的。但如果以自动驾驶为标准,纯视觉方案目前只能满足L2级别的自动驾驶,再往上提升一个档次也很困难。
作为行业研究者,龚建伟给出了不同的观点。在他看来,特斯拉目前的Autopilot并不是真正意义上的纯视觉方案,而是需要雷达参与其中。马斯克之所以不采用激光雷达,可能因为特斯拉涉水自动驾驶领域比较早,当时激光雷达方案不成熟,只能用视觉方案进行产业化,后来也就一直延续这样的技术路线了。
“最为重要的是,纯视觉方案并非原地踏步,例如摄像头从单目变为了双目,可以更好地模拟人眼,对于景深也有更加直观的认识。”龚建伟说,随着深度学习的持续,样本训练量的增加,纯视觉方案未来必然会变得越来越聪明,这可能只是一个时间问题。
因此在现有技术背景之下,越来越多的行业从业者,开始推崇多传感器融合的第三种技术路线,毕竟无人驾驶系统的可靠性和安全性,是早日产业化最为关键的因素。
在这套方案当中,高精度毫米波雷达、摄像头和激光雷达这三种传感器得到了融合,并对信息数据做好排序和决策。
对于人命关天的自动驾驶来说,多一些追求保险的观念,并不是什么坏事。
这样看来,即便哪个厂商具备了自动驾驶的硬件基础,也不意味着马上就能拥有完全自动驾驶能力。因为无论是对于每一个单独的传感器,还是对于不同传感器之间的融合,都还需要一定的时间来进行学习和改进。
出品:科普中央厨房
监制:北京科技报 | 科学加客户端
欢迎朋友圈转发
未经授权谢绝转载,违者必究