理想汽车AI战略的哲学与野望:
从辅助工具进化到生产工具
杨吟 文/图
5月,理想汽车以两场重磅活动定义了其智能化战略的里程碑:在AI Talk第二季中,李想深入浅出地阐述了VLA(视觉—语言—行动)司机大模型的底层逻辑以及理想对人工智能的一些独特思考;紧接着5月8日理想L系列智能焕新版发布会,通过四款车型的软硬件升级,为理想汽车未来搭载更多更先进的AI技术铺平道路。从技术架构到企业价值观,理想汽车正试图在自动驾驶的无人区中,构建一套兼具颠覆性与人文关怀的AI方法论。
AI的生产力革命:
从辅助工具到“代驾司机”
在AI Talk第二季中,李想将AI工具划分为信息工具、辅助工具、生产工具三级跃迁。当前行业普遍停留在前两个阶段:在第一阶段,信息工具只能提供有限的参考价值,例如人们向AI发出指令查询近期的新闻热点等;到了辅助工具阶段,典型的例子是现在常见的L2级辅助智驾,在这个阶段仍需人类监管。而到了第三阶段的VLA司机大模型,其核心目标是成为“交通领域的专业生产工具”——如同人类雇佣代驾司机一般,独立完成驾驶任务并承担责任。相比于现有端到端+VLM方案,司机大模型不仅类人理解与沟通能力增强,同时进一步拥有了自主决策行动的能力。
目前端到端+VLM表现不错的情况下,理想为什么一定要升级VLA?其最核心的原因可以归结为,VLA司机大模型突破了多模态协同效率与物理世界建模能力的双重瓶颈,打破了端到端+VLM两个独立模型的天花板上限,能够更好地处理人类驾驶行为的多模态性,可以适应更多驾驶风格。
VLA的诞生:
不是突变,而是进化
“如果你规则算法都做不好,你根本不知道怎么去做端到端,如果你端到端没有做到极致,你连VLA(视觉语言行动模型)怎么去训练都不知道。”
李想认为,端到端是做好VLA的基础,在这个过程中每一步的能力构建都十分重要。回顾理想近两年的辅助驾驶发展历程,从2023年年底全场景NOA推送,到2024年夏天推送无图NOA功能首次摆脱了对先验信息的依赖,实现了全国都好开,理想由此迈入辅助驾驶第一梯队。再到2024年10月推送端到端+VLM双系统架构,理想辅助驾驶正式迈入AI大模型时代。凭借技术创新引领行业发展,今年3月,理想汽车正式发布下一代自动驾驶架构VLA,它将空间智能、语言智能和行为智能统一在一个模型里,赋予了模型强大的3D空间理解、逻辑推理和行为生成能力,让自动驾驶能够感知、思考和适应环境;它既是一个能理解用户意图的智能体,也是一名听得懂、看得见、找得到的专属司机。
在VLA到来前的每一步,理想都走得格外扎实有力,经过长时间的验证,获得了广泛用户的认可。理想汽车用自身的实践证明,一步直达VLA是不可行的,技术积累必不可少。
好的人工智能:
要有道德、有边界,值得信任
“我不可能雇用一个职业赛车手每天给我开车,但我要雇一个职业司机。”
随着AI技术的发展,模型能力越来越强,也带来一个问题,模型自己决策“乱来”的可能性也增大了,这就需要极强的职业性来约束、规范模型的行为。而理想要做的AI司机,除了必须具备强大的开车能力,还要具有非常强的职业性,保证舒适、安全,保证与人类开车的价值观一致。
为了解决模型的黑盒问题,理想采用重建加生成的方式,借助大量的实际路况行驶数据,构建了一个“世界模型”,可以通过生成数据的方式,为VLA后训练过程中的强化学习创造优秀的虚拟环境;其构建的测试场景既符合真实规律,也兼具优秀的泛化能力,使系统具备了高效闭环的迭代能力,确保系统安全可靠。
理想汽车的AI战略,本质是一场关于技术的持续突破与人性的克制准则之间的交织。VLA司机大模型的价值,不仅在于解放人类双手,更在于探索“硅基生命”与“碳基文明”的共生边界。