开炒VLA，“端到端”过气了？

2024年，智驾领域最热的词，就是“端到端”。甚至，到了不聊端到端都没法出门的程度。
不过，在这个光速迭代的智能电动化时代，“端到端”会被迭代替掉，也是可想而知的。于是，VLM、VLA、世界模型……概念涌现，被誉为“端到端2.0”的VLA（Vision-Language-ActionModel，视觉-语言-动作模型）闪亮登场。
在我之前的文章《奇瑞的智驾水平，到哪步了？》中，曾经提到，根据规划，奇瑞的VLA大概2026年会上。也就是，2026年完成VLA大模型的构建，2027年要达到具身智能（VLA是具身智能领域的新范式）的程度。
主机厂深度觉醒，但是，也要到2026年完成模型构建。所以说，开炒的VLA概念有那么快落地吗？
概念先行
智驾概念不断涌现，也代表各玩家的技术路线和投入侧重。
实际上，“端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就又进化了。而“端到端”的最新进化方向是，深度融入多模态大模型，进入VLA模式。
就像年中理想汽车发布的名为“端到端+VLM”的双系统架构，其中，端到端跑在一颗OrinX芯片上，VLM（视觉语言模型）跑在另一颗OrinX上。
随后不久，元戎启行CEO周光表示，预计明年推出VLA。其智驾方案将搭载在魏牌蓝山上，仅需一颗OrinX芯片。
11月底，商汤绝影举办了自己的第一个AIDAY，亮出名为“开悟”的世界模型，可生成仿真数据，与量产实车采集的真实数据结合，共同重建物理世界。商汤绝影CTO肖枫还直接说：“‘地大华魔’头部格局，已经是过去式了。”
事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌DeepMind推出了全球首个控制机器人的视觉语言动作（VLA）模型RT-2。其后，这个模型概念快速扩散到智驾领域。
今年10月底，谷歌旗下自动驾驶公司Waymo推出基于端到端的自动驾驶多模态模型EMMA。按照国内行业人士的理解，这就是一个VLA模型架构。
那么，VLA真的就会这么快来到吗？说实话，我是不信的。就像全固态电池，还有智能底盘，行业內的“概念先行”歪风，在大模型领域也是如此。
实际上，商汤绝影CEO王晓刚不是也说，“端到端的发展还是要经历一个过程，包括基础设施、数据积累、数据仿真。要真正发挥它的威力，这不是一蹴而就的。”
理智地看下，在端到端才进入规模推广之际，所谓端到端2.0的VLA方案立刻想落地面临很现实的挑战。
一方面，现阶段车端芯片硬件还不足以支撑多模态大模型的部署落地。比如理想的端到端+VLM模型，对车端芯片硬件有相当高要求，目前是2颗英伟达OrinX芯片，算力达到508Tops。
不过，有行业人士表示，现阶段车端的算力很难支撑VLA模型部署，需要像英伟达的最新一代车载AI芯片Thor的算力来支撑。再者，单片AI算力1000Tops的Thor大概率会延期发布，加上英伟达芯片的量产时间与成本挑战，对车企而言是个大问题。
还有个成本问题。比如，如果单颗OrinX可以搞定端到端，那么，搭载两颗OrinX芯片的车，包括蔚来搭载四颗OrinX芯片的车，冗余是不是太多，算力是否太浪费？
当然，车企也会考虑用一些国内的自研大算力芯片。不过，这些都还是未知数。
除了算力，更具挑战的是，如何将端到端与多模态大模型的数据与信息作深度融合。这考验着车企智驾团队的模型框架定义能力、模型快速迭代能力。只是，VLA技术路线的骤然升级与竞赛变奏，为还没发力端到端的玩家设置了更高门槛，看起来更加高不可攀。
车端or云端？
实际上，国内现在还在“卷”从“两段式”的端到端到“一段式”的端到端，VLA哪能那么快呢？
按照博世智能驾控中国区总裁吴永桥的判断，到明年，在国内应该只有1-2家企业能够实现一段式端到端。
当然，从两段式端到端逐步过渡到一段式端到端，最终实现世界模型的应用，这一路线图正逐渐成为业内共识。这是一条车端到云端的路。
简单来说，以端到端和VLA为代表的技术路线，侧重车端，以世界模型为代表的技术路线，侧重云端。当然，云端的争夺也非常激烈，甚至有说法是，“未来竞争的核心在云端。”
而随着下一代端到端到来，算力需求更大，智驾话语权的争夺也更激烈。车端和云端，当下与未来，又如何权衡？这也考验着车企的智慧。
实际上，云端的军备竞赛早就非常激烈。比如，今年7月理想汽车公布云端算力2.4EFLOPS，最新数字是5.39EFLOPS。小鹏汽车当前云端算力2.3EFLOPS，预计明年达到10EFLOPS。而去年9月问界M7改款发布会时，余承东披露华为云端算力为1.8EFLOPS。最新数字已经到了7.5EFLOPS。
从智驾竞争的终局来看，小鹏汽车认为，布局云端大模型才是制胜关键。而且，其选择的云端大模型路线和OpenAI所选择的路线不谋而合。
根据小鹏的架构，云端大模型通过知识蒸馏，形成车端的端到端大模型。此外，云端大模型还被用于世界模型和数据的清洗和挖掘。在云端大模型的加持下，小鹏汽车的智驾参数量会比传统车端大模型高80倍，带来8倍有效视觉感知信息量。
这也是为什么，小鹏汽车的一套智驾软件标配全车系，涵盖SUV、轿车、轿跑、MPV等多车型。
不仅是小鹏汽车，商汤绝影的“开悟”世界模型，基于商汤20EFLOPS的云端算力，将能够用“实车道路采集+世界模型生成”双轮驱动，实现CornerCase数据生成。
蔚来在今年的NIOIN2024创新科技日上，也发布了其智能驾驶世界模型NWM。该模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景，并寻找到最优决策。
而对于加快云端算力储备同时发力车端模型的理想来说，VLA、世界模型以及类似特斯拉的做法等几个方向都在探索，并通过扩大端到端模型的体量，训练出VLM的早期认知能力。
值得一提的是，数据量也成为下一代端到端的竞争核心。元戎启行CEO周光认为，端到端1.0交付达到万台规模级就有挺好的效果。而真正做VLA，10万台可能只是一个入门券，要看谁能更快达到10万台交付规模。
当然，到底是从云端降维到车端，还是车端升维到云端，目前没有统一的答案，各家众说纷纭。只是，大家都不能回避的是，对算力的要求越来越高，成本越来越高。能不能留在牌桌上，是最大的问题。
这不，特斯拉的FSDV13版本已经出来了，马斯克说能力提升500~1000%。那么，大家只有继续卷咯。

开炒VLA，“端到端”过气了？

汽车性能更多>>