2024北京车展上,我们有幸专访到了智能软件副总裁潘云鹏先生,听听他聊聊极越AI智能化和智能驾驶两方面。内容分为两部分,第一部分请云鹏总分享一下现在AI的能力,第二部分是QA环节。
一、极越在产品上的思考
智能化,分两种智能的形态,第一种是类似于之前通过逻辑推理,通过推导演绎进行的智能活动。
第二个是通过生物的启发,神经网络通过大量的学习和观测,发现其中的规律,或者产生感觉。
这恰巧是所有汽车在软件里智能演化的方向,我们之前一直在聊软件定义汽车,后来大家突然发现软件硬件管理起来是不同的两波人,他们也开始强调软硬解耦,这是我们当时的SDV最基本的思路。
现在是AI定义汽车,如果之前讲的是基于逻辑的推理,之前软件定义汽车的年代是推理,我们现在更多的是AI定义汽车,需要的东西不一样,我们需要见多识广,需要背更多的英文题,这里需要高算力,包括高质量的数据和大量的参数模型。遵循这个Scaling Laws往前发展,中文翻译是大力出奇迹,更多的数据,更多的算力往往有更好的性能。
我们在开发智能化的时候,就是以AI定义产品形态,定义汽车机器人的基础和能力,就像李彦宏提到的未来机器人的形态有可能是一辆车。我们当时定义汽车机器人所具备的三大基础能力,包括自然交流、自由移动、自我成长:
智能软件副总裁潘云鹏先生
1、自然交流,就像现在你一言我一语非常自然的沟通;自由移动是高阶智能驾驶的能力。自我成长是通过数据,统一用户的反馈,把这个产品做的越来越好,有更好的语感,这是自我成长的能力。
这个是我们之前讲到的,整个极越01在打造产品的时候最基本的AI核心,简单的产品架构,我们分三个部分,红色紫色和蓝色的,红色的部分是自然交流的部分,我们最底层的AI核心能力是全端侧的语音,大家知道我们的8295在中国少量量产,后面越来越多的车也搭载了8295,我们这个8295使用了完整的两个NPU的配置,高配中的高配。允许我们把一些大模型经过智能(NPU)的方法,Push到车端,这是全端侧的语义。
它具备几个特点:
第一,多模态,大家看到打开那扇窗,有摄像头的数据,能解决在高速开窗,噪音比较大的时候的识别率。
第二,全端侧,算力高,可以达到500毫秒的极速响应,它不需要云端交互,可以很快给出一条执行的指令。
第三,因为它的全端侧,所以隐私上有天然的保护,对用户的隐私保护意识也比较友好。
自然交流有几个场景:
第一,车外的语音泊车,这是中国第一款通过车外语音泊车的产品;
第二,可见即可说,只要你想执行一个指令,不管通过什么语义或者语言表达出来,它都能执行,我们过去在语音开发中必须得一板一眼的说“打开窗户”,可能多一个字少一个字识别都有影响,我们通过这个语音的能力,泛化做的特别好,前段时间有用户说“摇下那扇窗户”,这种相对没有那么高频的表达方式也能做到比较好的泛化,这是可见即可说。
第三是离线语音,没有网络的时候,刚才提过了,这个更多是在没有网络的时候,比如我们在火焰山做路测的时候,能够特别好执行车辆所有的车控指令的能力。
第四,文心一言原生的支持,本质上来讲,文心一言给了整个车机,给了Simo认知上大的迭代,我们在支持文心一言之后遇到一个甜蜜的烦恼,经常在后座有人,或者副驾驶有人的时候Simo会插话,你跟副驾聊天,聊一下今天的天气,或者聊一下比赛,如果你开启了免唤醒,它可以反应,跟你对聊,它认为你在跟它发指令,它会识别这些指令。因为认知能力提升之后,不像过去整个认知有车控类,娱乐类,介入一些CPSP,有一些信息的获取,但是现在文心一言的认知能力大大提升。
我们现在发现在副驾驶有人或者后驾有人的时候,文心一言娱乐的能力大大提升了,认知能力大大增强了。
2、自由移动,主要是我们车位到车位的PPA功能,有两个比较大的特征:
第一,行泊一体,行车功能,泊车功能感知,包括飞控、基础组件都是基于视觉基础模型的。
第二,纯视觉,我们现在是全中国唯一,全世界唯二纯视觉高阶辅助驾驶的方案。
今年,我们的PPA将实现全国都能开,具体来讲,我们将先开放了一百个城市,主要是用户最多的一些地方,我们在未来的一到两个月逐步开放到300至360城的范围。车位到车位,行泊一体,足以满足从家里的地下车位到公司地下车位比较好的衔接。
再来看自动转向灯和屏幕换挡,它还是用到我们纯视觉的能力,我们在1.4版本的时候,通过车的角度判断是否有变道的意图,把转向灯打上,包括屏幕换挡,我们很快还有自动换挡的功能,通过视觉的能力,知道你想前进还是后退,总体来讲对整个视觉做了一个比较丰富的应用。
3、自我成长,所有的智能体都要具备自我复盘或者自我迭代的能力,这里要强调两个方面:
第一,基于Simo的学习功能,现在很多同学已经在使用Simo,将用车过程当中遇到问题通过Simo反馈回来,包括产品建议,帮助我们解决一些场景,或者给我们的产品提供更丰富的建议。
第二方面,关于数据闭环,无论是语音数据,还是智驾的数据,都可以通过数据闭环完成对模型高频的迭代,这个模型在去年给到320多款升级,基础模型也能做到10天左右新版本的迭代,数据飞轮跑起来以后就是快速成长的过程。极越01在过去5个月,OTA升级了5次,马上即将发布V1.5.0版,如此高频,和模型迭代效率之高都有关系。
二、另外谈一下纯视觉,现在很多厂商推出了没有激光雷达的方案
1、什么是纯视觉:
第一,不依赖激光雷达
第二,全国都能开,这不只是高速高架,城市道路也必须能开,城市道路是大部分的出行场景。
第三,要安全、安心、好用,安全是所有的基础。安心,是尽量减少不安心接管的次数,最后是好用,开起来像老司机一样,给人驾驶更安全,体验更好,定位上是纯视觉智能驾驶。
2、为什么决定去掉激光雷达:
第一,从人类驾驶的模式来看,头顶上也没顶一个主动光传感器,基本还是通过视觉,人脑手脚配合形成一个动作。我们车上的摄像头包括毫米波雷达的覆盖范围比人类广,它完全可以替代掉额外的激光雷达,完成驾驶的动作。
第二,激光雷达现在成本下降比较快,甚至已经来到了千元时代,但比起摄像头依然有比较大的成本的差别,激光雷达作为一个比较精益的光学传感器,它在使用的过程当中,也会对环境比较敏感,售后的维修成本自然也会水涨船高,总体有前后成本的差别。
第三,也是比较容易理解的,当激光雷达给的结果,和其它感知的结果不一致的时候,就会非常纠结,而且激光得满足光学基本的物理属性,在一些有金属表面反射比较强的场景之下,必须得消除伪影和鬼影,这些东西的整个长尾效应比较明显,需要导入大量的成本。
第四,激光雷达的布置,站的高,看的远,往往喜欢把它放在头顶上,这个对设计提出一些挑战。
我们在极越01开发量产的时候,并不是从0-1,而是有整个百度近十年的智驾积累,意味着我们并不是冷启动的公司。然后,我们在积累了一亿公里的数据以后,在2023年发现有没有激光雷达,整个性能没有什么差别,甚至在某些场景,摄像头表现的更好。这意味着我们已经发现了一个拐点的到来。
3、四大基础能力的视觉大模型:
第一,在智驾里把之前的小模型汇集成更大的大模型。大家可能会看到各个功能,每个功能都有自己的感知模型,都有自己的控制模型,预测模型。我们在极越01上对这些模型做了重构,意味着我们有一个比较大的基础模型,合并之后,这个基础模型具备几个能力,第一,具备在线绘图的能力,是帮助我们去泛化,去开城,主要是应对地图数据没有那么完善,信息没有那么准确的时候,它可能做一些实时线图,这是为什么我们可以很快开放全国的原因之一。
第二,目标监测和持续跟踪,我们对于行人进入视野,到被遮挡再出来,整个过程中,可以对行人的目标轨迹,或者对行人的识别,可以做到持续的追踪,持续的预测,这样会让车有一些预处理的能力,而不是突然变成鬼探头的场景。
第三,OCC的占用网络。之前的感知必须得先认识它是个什么样的障碍物。而极越是避开这个逻辑,不需要识别它是什么样的障碍物,可以直接看到在目前的行驶区域或者行驶路径被遮挡,它能够自然绕开,它能极大的提升障碍物检测和安全性能。
最后是场景理解,基于所有基础能力的加持,可以对每帧视频的数据做出最准确的判断,跟看图说话类似,可以帮助智驾在预测和沟通的过程中,做出更好的判断。
我们在合并一些模型之后,发现它的性能有很大的提升,另外整个算力要求在减小,因为我们之前小模型的数量比较多,而且得益于数据训练之后,所有的行车和泊车场景都有收益,这也是感知和基础的大模型带来自动驾驶泛化能力和性能提升的例子。
第二部分:QA环节
1、纯视觉方案在AEB方面的表现,跟激光雷达有多少差距还是没有差距?
我们对于AEB的测试过程中发现,激光雷达对刹停的距离和时间影响并不大,更多的还是在一些转弯场景,包括急速场景上,把AEB的上限拉很大。我们也在不断的提升AEB的上限。
2、去激光雷达、去高清地图化,发展纯视觉路线,未来的自动驾驶发展方式是什么样的,需要走哪条路线?
这个行业里观点越来越类似,有几个关健词,一个是去图化,一个是激光雷达,还有一个端到端,大家聊的比较多一点,可能在相当长的一段时间都会有。
每一家公司的数据积累不一样,每个公司的生态也不一样,我相信一定是多套方案。相同的场景并不一定谁比谁更好,比如纯视觉方案,大家聊激光雷达会聊成本和可靠性,我们的纯视觉把售后成本压低,但是研发成本是提高的,对数据量提升,对算力的要求越来越大。
关于有图无图这件事,一定是循序渐进的过程,即使是开发了无图方案,也不可能把已有的有图方案全部撤掉,整个行业在这点上判断是一致的。
端对端,分两种,背后的基础逻辑都要有大量高质量的数据。当前实现端到端还有点早,还是需要大量高质量的数据来积累。大家还在探索的过程,当然这也是极越下一步重点的方向。
3、语音会误识别,我们可以做到识别对话的对象吗?
解决这个问题还是挺难的,要求对语义和上下文有更好的理解,也需要通过数据的积累。比如两个人在聊天,Simo开始说话,用户说Simo退下或者停下,通过对语义的理解,对场景的分析,慢慢减少这些场景,总体而言也是数据闭环和数据驱动的思路,很难通过规则一棒子打死。
4、如何判断智驾好用不好用?好坏的评判标准,作为一个普通人来说怎么评判?智驾对底盘有什么要求?全国端到端智驾是依靠什么进行开启的?
潘云鹏:我先回答第二个问题。
每个人的需求不一样,有些人在意驾驶质感,有些人不在意,一个好的底盘对个智驾的体验一定是有帮助的,包括它的刹车响应和提速的响应,百分之百有帮助。如果对于一个响应迅速,包括调教的更加柔和的底盘,在智驾和人驾的场景一定不一样,这个相对来讲比较容易判断。
不光智驾的底盘,包括电机,电驱动,对客户的反映是直接的,在安全角度来讲,制动率,制动响应时间延迟,速度越高,每一秒影响都非常大。
第一个问题和第三个问题放在一起说,为什么大家说无图都能开,全国都能开,我们还一步一步的走,这和我们的安全判断标准有关。第一,我们认为它安全,开放一小段,对用户的体验没有任何帮助;第二,你开了,天天被迫接管,对你的口碑也不太好,特别是比较新的品牌,这个时候把用户惊吓几次,如果不幸的话发生几起事故,对品牌的伤害比较大。我们对于整个开车的标准要求还是很严格的,这个大家可以放心。
我们主要是服务用户,我们并不是慢慢营销导向的公司,我们还是选取了用户量最大的城市,我们在这些城市里会做到比较完整的测试,我们因为百度的加持,我们的地图经验信息很丰富,我们会把地图不太准确的地方挑出来,还是保证安全安心的标准上逐步的开城,总体开城的逻辑是这样。
一百城两百城三百城,本质上是数据迭代的过程,有了更多的数据,在95%的场景能非常好的覆盖的基础上,可能还要花500%的精力去覆盖剩下的5%的场景,这个时候要花的时间更长,开城也是遵循这个标准的逻辑,满足工程研发的规律,数据逐步迭代。
5、自动驾驶容易让人晕车,控制逻辑是什么样的?
潘云鹏:有的用户觉得刹车太急会点头,不舒服,有的用户觉得起步太慢,丢失了先机,特别生气,还有用户,我们发现早上的时候他想跟的近一点,晚上的刹车太急,又觉得不安全,这是一个非常众口难调的问题。
首先对于点头这件事,肯定可以解决,就是刹车是否做到柔和,包括自动驻车的逻辑和办法。在其他那几个问题,还是通过数据的算法,学习本人的行为,只能通过这种方式,克服很多主观的场景。
6、开一百城的标准是怎么样的,什么样的标准,比如覆盖率?
潘云鹏:我们之前开放了北京、上海、杭州、深圳、广州主要的城市道路,可能95%覆盖的道路都覆盖了,这个标准没有变过,因为百度地图会通过高频的行驶区域,会把这些区域做一个开通,每个城市的大小不太一样,纯地面道路几千公里的覆盖是必须的,这是大城市。
7、Simo大概在什么水平?
潘云鹏:Simo的整个算力会有一个升级,现在只能说够用,是比较科学的在使用这两个芯片,刚才讲的把众多的小模型合并,让它有更好的性能,同时有更低的算力的要求。
此外,我们也会有更多的端到端的算法,具体从哪个端到哪个端,每个车企不完全一样,对算力的要求可能会越来越高。
8、极越目前纯视觉的智驾路线是如何实现实时的环境感知和准确决策的制定?现在在纯视觉的智驾方案这一块,很多车企开始布局我们,包括小鹏这些车企,面对市场的竞争,您是如何看待的?再有一个,文心一言和Simo的打通,文心一言的覆盖率是否在车机的领域够用,未来会有哪些方向成为核心的竞争力?
潘云鹏:先说视觉,总体来讲,感知分为两部分,一部分是对周边环境,所谓的道路结构的感知,刚才讲到百度地图天生就有经验信息的优势,知道的更多。第二,我们最开始是BEV,后面开始做OCC,也是为了在没有办法识别所有奇形怪状的障碍物时,做一个避障或者避撞的行为。
第一次发布OCC的时候,有一个媒体把那个装矿泉水的塑料袋扔在车前,极越01就绕过去了,这是很有难度的。因为它是透明的,颜色千奇百怪,形状千奇百怪,但我们还是通过升级OCC的算法,完成了这个感知的迭代。
我们的视觉感知的大模型VTA,有三款形式,分别像狙击枪、手枪和匕首,从远到近,帧率从高到低,分辨率从低到高。最低的分辨率可以做到5个厘米,5个厘米基本上是超声波雷达的一个精度要求,非常近。
在精度问题上,我们通过大量数据训练,通过1550的激光雷达,进行大量的数据训练和标注,完成它的精度需求。
而且,在摄像头之外,我们还是会有毫米波雷达,有多重的保障,保证感知的高精度。
SIMO与文心一言的融合,现在还只是开始,因为百度对AI投入越来越多,文心一言大模型会越来越好,像一个智能体,未来想象力是无限的。从而也会让SIMO的认知能力得到提升,表达一定也会更加顺畅,做的内容会越来越多。
玩家越来越多,电车越来越多,本质上并不是要拼的你死我活,技术越有多样性,对用户来讲是个好事,最后还是用户体验来说话,用数据来说话。
最终应该是百花齐放,纯视觉、非纯视觉、5颗激光雷达,8颗激光雷达,这都不重要,只要用户的成本是可接受的,体验是安全舒心的,这都是挺好的。
发表评论