特斯拉、小鹏的自动驾驶为什么要用端到端大模型？_IDC算力新闻

8月9日有消息称，小鹏汽车近期对组织架构进行了调整，技术开发部被拆成了三个部门（AI端到端、AI应用、AI能效），新的组织架构聚焦端到端模型。

小鹏汽车创始人何小鹏在微博曾公开谈到，他越来越坚信端到端+大模型的组合，可以解决L2~L4的软件架构，并真正实现智驾全球化，是真正可以到小区和所有内部道路自动驾驶的最优解决方案。而在此前举行的小鹏汽车AI智驾技术发布会上，何小鹏也公开表示，小鹏汽车是全球唯二实现端到端大模型量产落地的汽车公司，而另一家是特斯拉。

特斯拉、小鹏的自动驾驶为什么要用端到端大模型？

端到端大模型是什么

端到端学习模型旨在直接从原始输入（如图像、雷达数据）生成控制指令，绕过了传统方法中的中间表示和处理步骤。

特斯拉在2021年引入了BEV+Transformer，将多摄像头数据统一成俯视角度。2022年提出Occupancy Networks判断空间占用，规划层引入交互搜索，逐步增加约束条件（其他参与者博弈行为）做最优路径规划。2023年8月26日，特斯拉演示FSD Beta V12，是其第一个端到端AI自动驾驶系统（Full AI End-to-End）。2024年1月，特斯拉FSD v12开始正式向用户推送，将城市街道驾驶堆栈升级为端到端神经网络。

端到端神经网络

不同于市面上常见的自动驾驶方案，特斯拉FSD V12将99%的决策都交给神经网络给出，视觉输入，控制输出。而小鹏汽车也采用了类似的神经网络方案。

具体来说，小鹏汽车的自动驾驶端到端大模型主要由三个部分组成：

XNet:深度视觉感知神经网络，类似于人类的眼睛，能够以裸眼3D效果重构现实世界的3D图像，感知范围扩大了两倍，并能识别50多种目标物。

XPlanner:同样是神经网络模型，作用类似人类的小脑，通过海量数据时刻训练，使得驾驶策略不断向拟人进化，拥有“老司机般的脚法”。小鹏官方称，“前后顿挫减少50%，违停卡死减少60%，安全接管减少40%。”

XBrain:大语言模型，类似于人类的大脑，为智能驾驶系统提供了理解和学习能力，能够处理复杂场景，快速响应各种驾驶环境中的指令。在大语言模型上，小鹏汽车的XGPT大模型融合阿里通义大模型、智谱AI大模型，将深度应用在车用场景中。

端到端大模型很费钱

小鹏端到端大模型

端到端大模型很费钱

这种端到端方案给智驾能力带来了强力提升，其背后对算力成本也带来了很大的消耗，特斯拉FSD V12的强大能力是经过海量的视频数据训练和1万个H100加持下完成的。小鹏则在AI训练上投入了35亿费用。根据小鹏汽车公布的数据，基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试，小鹏汽车端到端大模型能够做到“2天迭代一次”。

此外，麦肯锡2023年自动驾驶全球高管调查显示，软件是自动驾驶汽车最关键的技术要素，其中预测算法和感知软件被认为是最关键的，达到L4及更高级别自动驾驶所需的累计投资比2021年的估计增加了30%-100%，软件开发和验证成本是主要支出。

端到端大模型很受关注

据数字开物了解，除实现量产落地的特斯拉和小鹏汽车外，海外的Waymo Driver，国内包括理想、华为、蔚来汽车、元戎启行、商汤等也都陆续提出了各自的端到端自动驾驶方案。

如此多企业选择多端到端大模型，主要因为其在自动驾驶中优势主要有这几方面：

数据利用效率提升：直接从原始数据学习，减少人为设计特征带来的信息损失。

系统整体性能优化：端到端训练允许模型发现更优的内部表示，潜在地超越人工设计的模块化系统。

对复杂场景的适应能力：大模型具有更强的表达能力，能够处理更加复杂和多样的驾驶场景。

开发效率与迭代速度提高：简化了系统架构，减少了需要单独优化的模块数量。

《2024汽车AI大模型TOP100分析报告》认为，端到端大模型发展路径上，行业预计也会经历渐进的过程。

早期玩家致力于将算法从模块化架构平稳过渡到端到端，远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二”共同赋能自动驾驶，最终强大的通用人工智能（AGI）或许可覆盖所有驾驶能力。