临近2024年底,“端到端”的量产应用成为高阶智驾领域热度最高的话题。
以城市领航辅助为代表的高阶智驾功能,从2023年的初现端倪,再到2024年的大规模落地,如今已经成为各大车企争夺高阶智驾话语权的焦点。
而高阶智驾发展到今天的L2 级别,想要再上一个台阶达到L3级甚至更高,原有技术在面对复杂多变的城市道路时就显得有点吃力了。
于是,“端到端”成了智驾领域最近一个阶段被高频提及的关键词。
目前,官方宣布已经落地端到端技术的车企越来越多,全球层面的第一个是特斯拉,国内的第一个是小鹏。
今年3月,特斯拉推出了FSD系统的V12版本,该版本宣称删除了几十万行的人工规则代码,采用了端到端自动驾驶解决方案。
今年7月底,小鹏宣布向全球用户全量推送AI天玑系统XOS 5.2.0版本,该版本采用了国内首个量产端到端大模型,官方宣称其高阶智驾系统提升到了“全国都好用”的水平。
在8月开幕的2024成都车展上,极越宣布PPA智驾升级为百度ASD,采用“纯视觉 端到端大模型”的高阶智驾方案在极越07上实现首搭。
虽然更多的车企还没有实现量产落地,但也在紧锣密鼓地进行着端到端技术的研发。蔚来在年中成立了大模型团队,小米也将智驾技术研发团队的感知与规控两个部门合二为一。
8月初,梅赛德斯-奔驰则在上海研发中心宣布,全新一代自动驾驶系统的“无图”L2 城市领航辅助已经开始测试,并且应用了端到端大模型。
而在10月末,又有两个新势力品牌官宣了端到端落地的消息。
10月23日,理想汽车宣布全新一代双系统智能驾驶解决方案“端到端 VLM视觉语言模型”正式全量推送。
到了10月28日,智己汽车宣布IM AD 3.0率先完成从“最像人”到“有直觉”的断代式进化,为智驾系统率先注入人工智能生成的“直觉”——基于智己汽车与Momenta联合打造的“一段式端到端直觉式智驾大模型”。
至此,智己正式加入端到端阵营,而且还是国内第一个官宣落地“一段式端到端”的车企。
01.“直觉”智驾与“一段式端到端”
究竟什么是端到端?这是高阶智驾进入端到端时代首先要理清的概念。
所谓的“端到端”,一端是传感器,包括摄像头、激光雷达等,它们就像眼睛一样承担输入环境信息的作用;另一端是行驶轨迹,也就是系统接收了来自传感器的信息后,会输出规划轨迹,从而控制车辆按照轨迹行驶。
以往,传统的智能驾驶系统采用的是模块化模型,将感知、预测、规划分别为三个独立的模型。每个模型的技术栈差异较大,处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。在模块化的技术架构下,信息的传递会出现减损,系统的维护难度大,无法从容应对复杂路况。 端到端大模型则截然不同,将感知、预测、规划三个模型融为一体,无需程序员编写冗长的代码去制定规则,而是用海量数据去训练系统,赋予机器自主学习、思考和分析的能力。端到端模型不会出现信息传递减损,能够更好地处理复杂的驾驶任务。
这就是我们常说的系统具备了学习能力,可实现“边看边开”,从而拥有了应对复杂场景的能力。
按照智己官方的说法,IM AD 3.0能以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力,可以能像人类思维一样做出瞬间预判,具备“十年老司机”的直觉驾驶体感。
这个所谓的“直觉”,其实就是端到端技术的核心价值——打破传统架构中模块化方案的解决思路,不再依赖人工编写的规则,让感知信息能够更加无损地参与到每一次的路径规划,输出更加类人的驾驶策略。
因此,智己提到的这个“直觉”,其实也不算是新概念,而是对端到端技术最恰当的一种比喻。
据官方介绍,智己IM AD 3.0让智能汽车首次拥有了综合分析道路环境全局信息的能力,尤其在应对突发状况时,能够“脑补”出看不见、看不全的路况信息,像人类高级思维一样可以做出瞬间预判,即人们通常所说的“直觉”或“下意识反应”。
在具体场景方面,智己在发布会上展示了测试视频,可见IM AD3.0能够礼让盲区横穿的行人、可以绕行水坑等特殊障碍物;在面对人车混流的无保护左转场景时,能够像老司机一样老练博弈,而不再原地傻等;在错综复杂的路口,即使面对无中线、超宽车等看不清的路况,也能流畅通行。
智己还表示,IM AD3.0已经可以做到“全国都好开,全场景都敢用”。
其实从端到端技术的落地时间来讲,智己并不算快,但此次官宣还有一个看点,那就是“一段式端到端”的落地,这让智己成为国内首个具备这一技术的车企。
当前,端到端大模型基本都采用分模块智驾结构,也就是所谓的“两段式”架构,分别为感知的端到端和规控的端到端,二者各自独立。
为智己提供智驾方案的科技企业Momenta CEO曹旭东表示,在两段式端到端中,感知的端到端一定需要这个物体对于人来说是比较好定义的,这样的话才能够很好地搜集训练数据,以及学习和验证。但是对于复杂的通用障碍物,比较难在感知的端到端里面做定义的,规控的端到端就无法收到对应的输入,进而忽视掉重要的感知信息,做出一些误判的驾驶行为。
“一段式端到端大模型”则取消了分模块智驾结构,将感知与规划整合进一个大模型,通过数据飞轮提供的海量优质数据,训练一个完整的神经网络,分析全局信息、隐含信息,学习优秀的人类驾驶行为,从原始数据输入到规划路径输出,形成了类似人脑的高级思维“直觉”反应。
曹旭东表示,一段式端到端的好处是感知的端到端和规控的端到端联系在一起,哪怕未定义的物体出现,在感知大模型的帮助下,仍然会做出合理避让。
为了解决一段式端到端方案前期下限低的问题,Momenta的端到端模型采用了短期记忆和长期记忆的训练逻辑。其中,短期记忆的训练周期是以“天”为级别的,好的数据和好的方法得到验证之后再进入长期记忆的模型学习。
这是一个类似于人类大脑进行学习的逻辑,当一个新的数据进来,它会先进入短期记忆,等到数据和方法被验证之后,才会进入长期记忆去学习。
根据官方数据,这套智己与Momenta联合打造的“一段式端到端大模型”在“长短期记忆模式”架构的助力下,将模型训练成本节省了10-100倍,同时还大幅提升了迭代速度。
02.“端到端”到底难在何处?
虽然官宣落地端到端的车企越来越多,但无论是在研发端,还是在市场端,业内人士对端到端的观点及判断并不一致。
8月16日,在第四届沈阳智能网联汽车挑战赛上,同济大学汽车学院教授朱西产表示:“特斯拉的端到端、人工智能让自动驾驶更加成为可能,端到端被特斯拉带火了,国内的车企都在说端到端。但现在,谁宣布端到端量产上车了,他的这个车你就别买。”
而在此一周之前,华为终端董事长、智能汽车解决方案BU董事长余承东评价特斯拉FSD到:“其商用版本进步非常大,上限挺高,但下限也很低。我们去测试,路上停着静止不动的白色货车,不减速就直接撞过去了,还有绿色的货车,也是不减速就去撞。”
根据朱西产的解读,端到端大模型虽然能够提供强大的泛化能力,但是在安全性方面存在不确定性。国内车企在数量和AI训练算力方面与特斯拉相比还有较大差距,所以近两年端到端量产上车的可能性不大。因为大模型需要的高算力还很难在车端布置,并且大模型目前也很难解决“长尾难题”。
所谓“长尾难题”,就是指在自动驾驶过程中那些发生概率较低、但种类繁多的特殊场景所带来的潜在风险。这些问题涵盖各种零碎、极端的情况和难以预测的人类行为,例如:带有凸出货物的卡车、打伞的行人、倒在路中央的树木,以及异形车辆、乱穿马路的行人和自行车、雨雪等极端天气、极暗的行车环境等。
同样是在8月初,极越CEO夏一平也曾表达了对端到端技术的看法。他表示:“端到端很难一蹴而就,我不认为现在市场上有任何一家是端到端,绝对不可能的,这个世界上现在没有人是端到端,不要吹这个牛。特斯拉目前还是分段式的,真正端到端、完全视觉看到直接做执行还很难。要知道,这背后的验证模型是巨大的投入。”
夏一平所提到的巨大投入,就是端到端大模型量产的最大难点——它的完善需要巨额的训练数据积累,由此带来的人力、物力和财力的消耗也是非常可观的。
以特斯拉为例,仅仅建设超算中心就花费了40亿美金,而端到端大模型越完善,也将意味着参数越多、数据越多,其中还包括图片和视频数据。
在数据采集方面,目前车企纷纷依靠用户的车辆采集数据,销量越大也意味着数据越丰富。据业内人士预测,谁的销量先破100万辆,谁就有可能在智能驾驶采集数据方面率先取得突破,而特斯拉在美国市场已经销售了170多万辆,它在数据积累上的体量是目前任何一个品牌都很难达到的。
朱西产认为,根据国内车企目前在智能驾驶开发的数据能力和AI训练算力,先做到感知的端到端,在规控算法上保留安全准则模型,这种分段式的端到端方案模型是比较合理的技术路线。以当前的情况来看,已经官宣落地的“端到端”大概率都是这个模式。
据极越官方表示,百度在AI和自动驾驶领域拥有超过十年时间、超过1500亿资金的持续投入,基于L4级自动驾驶大模型Apollo ADFM打造了ASD。Apollo的L4级自动驾驶里程已经超过1亿公里,并建立了超5.5EFLOPS的高算力训练集群,可以实现模型的高效训练和快速迭代。
在这一点上,智己与Momenta宣布“模型训练成本节省了10-100倍,并大幅提升了迭代速度”其实与之意思相同,那就是强调数据训练效率提升,已经积累到了可以支持端到端落地的量级。
而至于小鹏、理想等品牌,目前尚未针对数据训练给出详细的解读信息。
03.L3量产只差临门一脚
随着端到端大模型的陆续落地,智能驾驶突破现有的L2级“限制”已经迫在眉睫了。
智己在宣布“一段式端到端直觉式智驾大模型”量产上车的时候,也同步官宣了“同时具备L2、L3、L4级智能驾驶量产能力”的消息。
按照官方公布的信息,智己的L2 级高阶辅助驾驶已在全国范围内开通全系车型“无图城市NOA”;欧洲市场的L2 道路测试也已启动;L3级自动驾驶已进入量产倒计时,智己在今年6月入选了全国首批“L3准入及路试联合体名单”,预计将于2026年正式具备L3级自动驾驶方案的量产条件;预计将在年内获得首批“L4级无驾驶人道路测试牌照”,实现无人驾驶车率先上路。
智己表示,在随着L3、L4级自动驾驶相关法律法规的逐步出台,智己将最快落地全行业最领先的自动驾驶体验。
比智己更早一点官宣的是华为,余承东在2024世界智能网联汽车大会上表示,预计ADS 4.0将于2025年推出,将实现高速L3级自动驾驶商用及城区L3级自动驾驶试点。
而像小鹏、理想、蔚来、极越等具备了高阶智驾能力的品牌,其实也已经具备了突破L2级的技术积累,他们的智驾系统在功能上距离允许“脱手”也只差法规的松绑而已了。
因此,L3级智能驾驶的落地,已经到了只差临门一脚的时刻。
在6月15日举办的中国汽车蓝皮书论坛上,华为智能汽车解决方案BU CEO靳玉志表示,汽车智能驾驶已经在L2级停留了太长时间,L3级自动驾驶技术在高速公路等场景的应用已经较为成熟,应该尽快允许商用。
虽然法规究竟何时可以“解绑”尚未可知,但端到端技术的逐步落地和持续完善无疑将起到助推作用。
从这一点来讲,2024年末国内车企头部玩家端到端技术的扎堆落地,将成为自动驾驶发展历程中值得记录的一笔。