看完特斯拉FSD V13,我觉得这才叫端到端

全文2655字,阅读约需8分钟,帮我划重点

划重点

01特斯拉发布FSD V13,这是第一个专为特斯拉HW4硬件做优化和重构的FSD版本,实现了真正的端到端AI。

02与国内新造车相比,FSD V13在泊入泊出环节无需依赖记忆泊车功能,体验更加顺畅。

03由于此,特斯拉AI4时代的到来,使得FSD V13在场景延伸方面表现得更符合人类开车出行的逻辑。

04然而,尽管FSD V13在端到端方面表现出色,但其在中国市场的表现仍面临路况、路权、法规等方面的挑战。

05未来,我们期待FSD在华一较高下,为新造车智驾领域带来更激烈的竞争。

以上内容由腾讯混元大模型生成,仅供参考

本周,全球智能驾驶领域有两个大新闻:特斯拉发布 FSD V13、Waymo 正式进入洛杉矶市区。

两件事我们都会写,大家可以持续关注「前沿」栏目,这是「硬核时间」栏目的新名字,今天先来看特斯拉。

2024 年,端到端是中国新造车智驾领域绕不过去的名词,不开一场跟端到端有关的发布会,似乎无法进入智驾第一梯队的竞争语境中。

脱胎自 ICT 通信领域的科技术语,之所以会成为中国新造车智驾传播的风暴眼,原因很大一部分,要追溯到 2023 年 5 月 8 日马斯克的推特:

图片

「FSD is end-to-end AI, from images in to steering, brakes & acceleration out.(FSD 是端到端 AI,输入图像,输出转向/制动/加速信号)。」

18 个月后,FSD 从 V11 迭代到 V13,这也是第一个专为特斯拉 HW4 硬件做优化和重构的 FSD 版本。

很有意思的,是特斯拉直到 V13,才完全称其为「Start from park(从车位启动)」,和国内宣传的「车位到车位」相比,似乎已经被追上了?

但是,根据最近几天早鸟用户对 FSD V13 的实测,我们发现,相比国内新造车,也许特斯拉才算得上是彻底的「端到端」量产者。

今天直接从车位开始聊。

图片

真·端到端

我们已经测试过几家新造车的「车位到车位」,目前来看体验都相对顺畅,场景之间流转相对丝滑,拼接感也没有那么重了。

等等,什么是「拼接感」?

想要聊清楚这个话题,我们要先回忆一下,一次普通出行如何开始?如何结束?

图片

如果在车库里,那么挂 D 档就能走;如果要回正常车库,那么到固定位置倒车入库,或者找到可用车位倒车入库就行。如果是从侧方车位出发,那么就得根据实际情况,可能要先挂 R 挡找到空间,再切 D 档位,反之同理。

而目前国内新造车的「车位到车位」,在泊入泊出环节依然依赖「记忆泊车」功能,也就是需要驾驶员建图,出入也会参考驾驶员的已有路径

当然,像是华为乾崑 ADS 和理想双系统智驾,它们的记忆泊车类功能已经优化得相对到位,我们实际测试过程中,并没有很明显的切换痕迹,如果你的停车位固定,那么体验不会有明显断层。

而这也是 FSD V13 惊艳的,或者说「第一性原理」再次发力的地方:它可以从任意停车位自主启动,可以自主挂倒挡。

图片

这意味着 V13 并不需要专门的「建图」环节,或者说它的功能逻辑完全就是人类开车出行的逻辑:看情况出发,看情况停车,核心在于「看情况」。

比如 YouTube 博主 Whole Mars Catalog,他两天前发布的第一批 V13 体验视频中可以很清晰看到,FSD 启动后可以从无标线侧方临停车位中,自动倒挡找空间出发。


再比如 YouTube 博主 Dirty Tesla 测试的,车头对内泊入的露天停车场,FSD 同样是自主倒挡出来,丝滑上路:

又比如下面,他还测试了中国观众更熟悉的场景——多层停车场。

泊入之前 FSD 其实走了指示牌的反方向,默认制造了困难。


但最终 FSD 在泊出到离开停车场的过程中,依然根据车库中高悬的「EXIT」和箭头标识,选择了正确的路线,全程零建图痕迹。

这也是我们强调 FSD V13 更应该是「真·端到端」的原因:无拼接、无切换、直接而类人的功能体验。

需要强调的是,「真端到端」和「优秀体验」之间,目前并不划等号,比如下图,FSD 怒闯一个左转红灯:


‍但在端到端的语境中,FSD V13 目前表现出来的能力,和国内新造车相比,明显更符合全程「图像输入,方向盘输出」的前提。

图片

特斯拉的「AI 4.0」时代

去年这个时候,中国新造车的传播热词是「全国都能开」。这个词后来衍生出很多变种,「全国都好开」、「全国自己开」,等等。

也是去年底,FSD V12 逐渐浮出水面。

V12.1,是特斯拉向 Early Acess 用户推送的第一个 V12 细分版本。更新日志写得很简洁,但代表着一场全新的竞赛拉开序幕:

图片

「FSD Beta V12 将城区驾驶堆栈升级为基于数百万个视频片段训练的单个端到端神经网络,从而取代了超过 30 万行显性 C++ 代码。」

特斯拉很少提起端到端,但每一次放在更新日志里面,都代表着重大升级。比如 FSD V12.5 里面,特斯拉正式统一了高速和城区两个技术栈的端到端模型。

这意味着比起「场景拼接」,「场景延伸」更符合特斯拉的智驾逻辑——体验不能算很好,但每一个触达的场景,都是真正的端到端。

我们可以回过头看 FSD V12.1 的体验视频,当时 FSD 还做不到从任意一个车位倒挡启动找空间,但已经可以实现 Autohold 状态下启动,自主挂 D 档出发,然后在终点附近靠边临停。

图片

从 12 到 13,虽然只是倒车的一小步,却是特斯拉 AI 架构的一大步。

来回顾下 FSD V13 的官方更新日志,可以说就差把「硬件 4.0(AI4)专属」写在第一句了:「全分辨率 36HZ 的 AI4 视频输入、原生的 AI4 输入和神经网络架构」

其实更新日志里还有一句「支持音频输入(大模型)」也很有意思,但那足以另起一篇文章,我会填坑的。

特斯拉 AI4 由 8 个 500 万像素摄像头组成感知硬件系统,内部算力大概是 720TOPS(业内估算),为 HW3 的 5 倍,视觉感知能力(像素数)则达到了 HW3 的 4 倍左右。

图片

V12 时期,特斯拉实际上是用 AI4 跑针对 HW3 训练的模型,这意味着AI4 的潜力远未发掘到极致。

图片

而伴随 V13 的推出,特斯拉才正式进入 AI4 时代。

自从 2021 年 AI Day 之后,特斯拉甚少公布底层技术逻辑的演进,但我们可以从一些蛛丝马迹中,大概窥探马斯克如何实现自动驾驶。

举个例子,V12 更新日志里面强调了两个方向:增加用以训练的视频片段,也就是 clips;减少规则向的冗杂代码。

无独有偶,V13 正式推送之后,特斯拉AI部门高级工程师 Yun Ta Tsai 表示,「V13 看上去很像猛禽 V3 火箭发动机,非常干净」

图片

再往前看一点,Issac 的《马斯克传》中提到,2023 年初,特斯拉已经训练了 1000 万个用户上传的 clips,距离 V13 已经过去接近两年,这中间特斯拉卖出接近 360 万台车。

如果在国内寻找类似的表达,理想汽车目前推送的 OTA 6.5 显示「基于 500 万训练 clips」,官方表示年底会达到 1000 万 clips;而小鹏汽车目前的进度是「模型训练数据量已达到 2000 万 clips」。

有意思的是,和训练数据、训练算力的先发先行相比,特斯拉的车端硬件能力,向来不追求「参数领先」,即使面对着近在咫尺而刺刀见红的自动驾驶黎明时刻。

「永远不要用导弹打苍蝇,用苍蝇拍打」,马斯克本人的话也许能解释这种现象。

图片

2025 见分晓?

V12 发布的时候,我当时写了一篇这样的稿子:《看完FSD V12.3的视频,我发现这才叫「全国都能开」?》

标题很像,因为现象基本一样。

年初我们还在争论什么才算「全国都能开」,年底则进展到更全面、长尾、细致的「车位到车位」。

也许是竞争土壤过于贫乏,特斯拉在北美不会用词汇包装功能,想看每个版本能干嘛的话,更新日志自己理解就行。

但从实测视频我们能看到,FSD 始终是端到端 AI 的坚决执行者,甚至在看似没有天敌的美国,进展依然比中国新造车更果决迅速。

不过,AI4 主导的 FSD V13,对应着特斯拉智驾登陆全球的新阶段。

国内讨论起 FSD,除了对 tech vision 的赞叹,更多的其实是对路况、路权、法规不同的疑问。大家都在期待 FSD 入华一较高下的时刻。

到底是新造车如雷贯耳的「车位到车位」更胜一筹,还是特斯拉闷声赶路已达终点?

翻过这一年,我们会有新答案。

(完)