从智能到直觉，“端到端”迎来扎堆落地的时刻-易百科

临近2024年底，“端到端”的量产应用成为高阶智驾领域热度最高的话题。

以城市领航辅助为代表的高阶智驾功能，从2023年的初现端倪，再到2024年的大规模落地，如今已经成为各大车企争夺高阶智驾话语权的焦点。

而高阶智驾发展到今天的L2 级别，想要再上一个台阶达到L3级甚至更高，原有技术在面对复杂多变的城市道路时就显得有点吃力了。

于是，“端到端”成了智驾领域最近一个阶段被高频提及的关键词。

目前，官方宣布已经落地端到端技术的车企越来越多，全球层面的第一个是特斯拉，国内的第一个是小鹏。

今年3月，特斯拉推出了FSD系统的V12版本，该版本宣称删除了几十万行的人工规则代码，采用了端到端自动驾驶解决方案。

今年7月底，小鹏宣布向全球用户全量推送AI天玑系统XOS 5.2.0版本，该版本采用了国内首个量产端到端大模型，官方宣称其高阶智驾系统提升到了“全国都好用”的水平。

在8月开幕的2024成都车展上，极越宣布PPA智驾升级为百度ASD，采用“纯视觉端到端大模型”的高阶智驾方案在极越07上实现首搭。

虽然更多的车企还没有实现量产落地，但也在紧锣密鼓地进行着端到端技术的研发。蔚来在年中成立了大模型团队，小米也将智驾技术研发团队的感知与规控两个部门合二为一。

8月初，梅赛德斯-奔驰则在上海研发中心宣布，全新一代自动驾驶系统的“无图”L2 城市领航辅助已经开始测试，并且应用了端到端大模型。

而在10月末，又有两个新势力品牌官宣了端到端落地的消息。

10月23日，理想汽车宣布全新一代双系统智能驾驶解决方案“端到端 VLM视觉语言模型”正式全量推送。

到了10月28日，智己汽车宣布IM AD 3.0率先完成从“最像人”到“有直觉”的断代式进化，为智驾系统率先注入人工智能生成的“直觉”——基于智己汽车与Momenta联合打造的“一段式端到端直觉式智驾大模型”。

至此，智己正式加入端到端阵营，而且还是国内第一个官宣落地“一段式端到端”的车企。

01.“直觉”智驾与“一段式端到端”

究竟什么是端到端？这是高阶智驾进入端到端时代首先要理清的概念。

所谓的“端到端”，一端是传感器，包括摄像头、激光雷达等，它们就像眼睛一样承担输入环境信息的作用；另一端是行驶轨迹，也就是系统接收了来自传感器的信息后，会输出规划轨迹，从而控制车辆按照轨迹行驶。

以往，传统的智能驾驶系统采用的是模块化模型，将感知、预测、规划分别为三个独立的模型。每个模型的技术栈差异较大，处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。在模块化的技术架构下，信息的传递会出现减损，系统的维护难度大，无法从容应对复杂路况。端到端大模型则截然不同，将感知、预测、规划三个模型融为一体，无需程序员编写冗长的代码去制定规则，而是用海量数据去训练系统，赋予机器自主学习、思考和分析的能力。端到端模型不会出现信息传递减损，能够更好地处理复杂的驾驶任务。

这就是我们常说的系统具备了学习能力，可实现“边看边开”，从而拥有了应对复杂场景的能力。

按照智己官方的说法，IM AD 3.0能以更接近人脑结构的思考方式，生成本能反应主导的直觉决策能力，可以能像人类思维一样做出瞬间预判，具备“十年老司机”的直觉驾驶体感。

这个所谓的“直觉”，其实就是端到端技术的核心价值——打破传统架构中模块化方案的解决思路，不再依赖人工编写的规则，让感知信息能够更加无损地参与到每一次的路径规划，输出更加类人的驾驶策略。

因此，智己提到的这个“直觉”，其实也不算是新概念，而是对端到端技术最恰当的一种比喻。

据官方介绍，智己IM AD 3.0让智能汽车首次拥有了综合分析道路环境全局信息的能力，尤其在应对突发状况时，能够“脑补”出看不见、看不全的路况信息，像人类高级思维一样可以做出瞬间预判，即人们通常所说的“直觉”或“下意识反应”。

在具体场景方面，智己在发布会上展示了测试视频，可见IM AD3.0能够礼让盲区横穿的行人、可以绕行水坑等特殊障碍物；在面对人车混流的无保护左转场景时，能够像老司机一样老练博弈，而不再原地傻等；在错综复杂的路口，即使面对无中线、超宽车等看不清的路况，也能流畅通行。

智己还表示，IM AD3.0已经可以做到“全国都好开，全场景都敢用”。

其实从端到端技术的落地时间来讲，智己并不算快，但此次官宣还有一个看点，那就是“一段式端到端”的落地，这让智己成为国内首个具备这一技术的车企。

当前，端到端大模型基本都采用分模块智驾结构，也就是所谓的“两段式”架构，分别为感知的端到端和规控的端到端，二者各自独立。

为智己提供智驾方案的科技企业Momenta CEO曹旭东表示，在两段式端到端中，感知的端到端一定需要这个物体对于人来说是比较好定义的，这样的话才能够很好地搜集训练数据，以及学习和验证。但是对于复杂的通用障碍物，比较难在感知的端到端里面做定义的，规控的端到端就无法收到对应的输入，进而忽视掉重要的感知信息，做出一些误判的驾驶行为。

“一段式端到端大模型”则取消了分模块智驾结构，将感知与规划整合进一个大模型，通过数据飞轮提供的海量优质数据，训练一个完整的神经网络，分析全局信息、隐含信息，学习优秀的人类驾驶行为，从原始数据输入到规划路径输出，形成了类似人脑的高级思维“直觉”反应。

曹旭东表示，一段式端到端的好处是感知的端到端和规控的端到端联系在一起，哪怕未定义的物体出现，在感知大模型的帮助下，仍然会做出合理避让。

为了解决一段式端到端方案前期下限低的问题，Momenta的端到端模型采用了短期记忆和长期记忆的训练逻辑。其中，短期记忆的训练周期是以“天”为级别的，好的数据和好的方法得到验证之后再进入长期记忆的模型学习。

这是一个类似于人类大脑进行学习的逻辑，当一个新的数据进来，它会先进入短期记忆，等到数据和方法被验证之后，才会进入长期记忆去学习。

根据官方数据，这套智己与Momenta联合打造的“一段式端到端大模型”在“长短期记忆模式”架构的助力下，将模型训练成本节省了10-100倍，同时还大幅提升了迭代速度。

02.“端到端”到底难在何处？

虽然官宣落地端到端的车企越来越多，但无论是在研发端，还是在市场端，业内人士对端到端的观点及判断并不一致。

8月16日，在第四届沈阳智能网联汽车挑战赛上，同济大学汽车学院教授朱西产表示：“特斯拉的端到端、人工智能让自动驾驶更加成为可能，端到端被特斯拉带火了，国内的车企都在说端到端。但现在，谁宣布端到端量产上车了，他的这个车你就别买。”

而在此一周之前，华为终端董事长、智能汽车解决方案BU董事长余承东评价特斯拉FSD到：“其商用版本进步非常大，上限挺高，但下限也很低。我们去测试，路上停着静止不动的白色货车，不减速就直接撞过去了，还有绿色的货车，也是不减速就去撞。”

根据朱西产的解读，端到端大模型虽然能够提供强大的泛化能力，但是在安全性方面存在不确定性。国内车企在数量和AI训练算力方面与特斯拉相比还有较大差距，所以近两年端到端量产上车的可能性不大。因为大模型需要的高算力还很难在车端布置，并且大模型目前也很难解决“长尾难题”。

所谓“长尾难题”，就是指在自动驾驶过程中那些发生概率较低、但种类繁多的特殊场景所带来的潜在风险。这些问题涵盖各种零碎、极端的情况和难以预测的人类行为，例如：带有凸出货物的卡车、打伞的行人、倒在路中央的树木，以及异形车辆、乱穿马路的行人和自行车、雨雪等极端天气、极暗的行车环境等。

同样是在8月初，极越CEO夏一平也曾表达了对端到端技术的看法。他表示：“端到端很难一蹴而就，我不认为现在市场上有任何一家是端到端，绝对不可能的，这个世界上现在没有人是端到端，不要吹这个牛。特斯拉目前还是分段式的，真正端到端、完全视觉看到直接做执行还很难。要知道，这背后的验证模型是巨大的投入。”

夏一平所提到的巨大投入，就是端到端大模型量产的最大难点——它的完善需要巨额的训练数据积累，由此带来的人力、物力和财力的消耗也是非常可观的。

以特斯拉为例，仅仅建设超算中心就花费了40亿美金，而端到端大模型越完善，也将意味着参数越多、数据越多，其中还包括图片和视频数据。

在数据采集方面，目前车企纷纷依靠用户的车辆采集数据，销量越大也意味着数据越丰富。据业内人士预测，谁的销量先破100万辆，谁就有可能在智能驾驶采集数据方面率先取得突破，而特斯拉在美国市场已经销售了170多万辆，它在数据积累上的体量是目前任何一个品牌都很难达到的。

朱西产认为，根据国内车企目前在智能驾驶开发的数据能力和AI训练算力，先做到感知的端到端，在规控算法上保留安全准则模型，这种分段式的端到端方案模型是比较合理的技术路线。以当前的情况来看，已经官宣落地的“端到端”大概率都是这个模式。

据极越官方表示，百度在AI和自动驾驶领域拥有超过十年时间、超过1500亿资金的持续投入，基于L4级自动驾驶大模型Apollo ADFM打造了ASD。Apollo的L4级自动驾驶里程已经超过1亿公里，并建立了超5.5EFLOPS的高算力训练集群，可以实现模型的高效训练和快速迭代。

在这一点上，智己与Momenta宣布“模型训练成本节省了10-100倍，并大幅提升了迭代速度”其实与之意思相同，那就是强调数据训练效率提升，已经积累到了可以支持端到端落地的量级。

而至于小鹏、理想等品牌，目前尚未针对数据训练给出详细的解读信息。

03.L3量产只差临门一脚

随着端到端大模型的陆续落地，智能驾驶突破现有的L2级“限制”已经迫在眉睫了。

智己在宣布“一段式端到端直觉式智驾大模型”量产上车的时候，也同步官宣了“同时具备L2、L3、L4级智能驾驶量产能力”的消息。

按照官方公布的信息，智己的L2 级高阶辅助驾驶已在全国范围内开通全系车型“无图城市NOA”；欧洲市场的L2 道路测试也已启动；L3级自动驾驶已进入量产倒计时，智己在今年6月入选了全国首批“L3准入及路试联合体名单”，预计将于2026年正式具备L3级自动驾驶方案的量产条件；预计将在年内获得首批“L4级无驾驶人道路测试牌照”，实现无人驾驶车率先上路。

智己表示，在随着L3、L4级自动驾驶相关法律法规的逐步出台，智己将最快落地全行业最领先的自动驾驶体验。

比智己更早一点官宣的是华为，余承东在2024世界智能网联汽车大会上表示，预计ADS 4.0将于2025年推出，将实现高速L3级自动驾驶商用及城区L3级自动驾驶试点。

而像小鹏、理想、蔚来、极越等具备了高阶智驾能力的品牌，其实也已经具备了突破L2级的技术积累，他们的智驾系统在功能上距离允许“脱手”也只差法规的松绑而已了。