过去数年,智能驾驶行业竞争焦点经历了显著演变。

初期,竞争主要围绕硬件展开,包括是否配置激光雷达、摄像头的数量以及算力(TOPS)。随后进入大模型时代,竞争转向端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路线。

如今,越来越多的企业认识到,单纯拥有更大的模型已不足以构建代际优势。真正决定技术上限的,开始转变为模型、数据、算力和芯片之间能否形成一个持续优化的闭环。

这促使越来越多的汽车制造商选择自主研发。

特斯拉几乎覆盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机及自研芯片的全链条。在中国,小鹏、蔚来及理想等车企也在不断向下游延伸。

在其今年发布的L8和L9车型上,理想汽车已采用了自研的马赫M100芯片。该芯片采用数据流架构,被理想视为AI领域的重要技术方向。基于马赫M100,理想也运行了自研的马赫VLA模型。

然而,对于整个行业而言,更值得探讨的问题并非“是否自研”,而是这些投入能实际解决哪些技术难题。

带着这一疑问,我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们分享了理想对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下为访谈的主要内容,经过编辑整理:

问:为了在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面努力?

**詹锟:**我认为要追赶FSD,可以从两个层面来看。

首先是基础体验,具体包括三个维度:安全性、效率和舒适度能否达到FSD同等水平。FSD在这三个方面表现出色,安全感十足,效率高,乘坐体验也很好,这是其核心功底。即使不处理极端复杂的路况,也能在这些基础体验上达到同等水平。

其次是高级能力,这方面追赶难度更大。例如,特斯拉能够礼让特殊车辆,在极窄通行场景下感知精度极高,并且能识别交警指挥,这些能力非常强大。

高级能力方面存在架构升级的机会。为何只有特斯拉拥有这些能力?这可能与过去的范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量探索。

问:我理解马赫VLA是一套技术体系,而非单个模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)的部分?

**詹锟:**目前自动驾驶架构普遍趋向于将VLA(视觉-语言-行为模型)与World Model(世界模型)整合。

从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到Language。因此,Language必不可少,关键在于如何运用它。

我认为,从机器智能的角度来看,Vision Based(基于视觉)的方案更为合理,它能更好地理解空间、感知三维环境并服务于环境交互。Language无疑是有价值的,在理解环境、交通规则、指令以及进行复杂决策时都发挥着重要作用。

长远来看,基于Vision和Language的原生基础模型,可能是未来的发展趋势。

**谢炎:**如果目标是L3、L4级别,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。此时,语言的重要性将愈发凸显,这也是未来对算力需求巨大的原因之一。

如果模型仅具备Vision和Action(视觉和动作)能力,即使拥有大量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。就好比动物即使学会了所有常见情景,面对从未见过的情况也可能完全不知所措,无法做出正确的选择。

我们认为,越是向L3、L4级别迈进,需要解决的问题越接近90%、95%、98%的边界地带——即那些前所未见的问题,需要模型具备类似人类的思考能力。而实现类人推理和思考能力的关键来源是语言模型。例如,面对交警的手势,你需要理解其含义,这并非仅仅通过收集或生成数据就能解决的问题。

问:随着理想汽车车队规模的不断扩大,从内部视角看,数据的边际效应是否出现了衰减?理想汽车是如何定义有价值的数据的?

**詹锟:**首先,数据的数量必须足够庞大,其本质是为了收集更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署优秀的Neural Trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现出色的重要原因之一。

其次,数据质量至关重要,尤其是行为数据的质量。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都离不开对Action(行为)的精确把握,因此行为数据的质量尤为关键,其干净度和一致性非常重要。

至于数据规模增大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求100分的表现,其数据收敛曲线必然是“对数曲线”,呈现缓慢衰减的趋势,而非线性增长。任何一家AI公司都遵循这一规律。尽管后期数据对模型收敛速度的影响确实会减缓,但我们仍希望通过扩大规模来加速这一过程。

问:马赫M100可以应用于多种AI场景。展望未来五年或更久,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?

**谢炎:**虽然业界存在“舱驾一体”的说法,但我们认为“舱驾一体”的核心在于AI算力部分,其他部分是否一体化并非最关键。因为座舱系统和AI智能驾驶系统可以完全独立,但AI算力可以集中处理,从而显著提高效率。

我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在该中心进行计算。这类似于笔记本电脑运行某些应用时,实际计算是在云端的Token Provider Server(Token供应服务器)上完成的。车内也将采用类似机制,设立一个Token Server(Token服务器)。

该Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保证,不被其他任务干扰,这是软硬件协同设计才能实现的结果。

问:是否因为M100采用了数据流架构的AI推理芯片,所以其对带宽的需求相对较低,而对片上存储的需求更高?

**谢炎:**我们对带宽的要求确实较低,但这并非直接导致SRAM容量(而非显存)设计的原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管成本来实现。最终的设计是基于成本、综合性能等多方面因素考量后的选择。

不同的架构设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终比拼的是综合的运动表现。

问:为何当前的大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上实现了这一点?

**谢炎:**本质上,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于高端L3向L4的演进,智能驾驶需要一个更高确定性的系统,要求内存和计算资源是专属的,此时融合的意义就大大降低了。因为资源无法实现实时切换,而实时切换会降低系统的确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,资源依然是独立的,并不能带来成本的降低,甚至可能影响效率。

您可以看到,目前所谓的舱驾融合系统,其功能实际上还是分开的。无法做到在同一时刻处理不同的任务。将两个芯片集成到一块,虽然晶体管数量可能不变,但仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。

我的观点是,随着智能驾驶向更高端的方向发展,舱驾融合的意义可能并不大。如果将这些芯片设计得更紧凑,在一块板上实现高度集成化的小体积方案,这是可行的,不一定非要集成到一块芯片上,也可以是多块芯片协同工作。

问:自研芯片需要具备哪些条件?例如销量、营收和研发投入。鉴于当前自动驾驶迭代速度非常快,芯片要实现持续迭代,需要什么样的条件?

**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元人民币。

第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有几十亿到上百亿的资金,才有可能持续投入芯片研发。第二个条件是,通过研发芯片解决的问题,能够显著提升产品的能力。

许多人认为芯片需要巨大的出货量才能实现规模效应。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9使用的是两颗马赫M100,总面积约为800平方毫米。而一部高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部手机的芯片面积。

如此计算,几十万辆车所需的晶圆面积非常可观,足以摊薄成本。因此,成本不能仅凭芯片的颗数来衡量。

问:动态数据流编译器在技术上有多难?攻克这一难题花费了多长时间?

**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器工作了,在芯片流片前,我们已经成功运行了许多模型。

数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信与协作,无法依靠单一的中央管理员来管理。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模并行调度的挑战。