北京大学:王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

来源:北京大学 #华为# #长安汽车# #北京大学#
1295

近期,王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题,先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作,被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用,同时申请了多项发明专利。

当前,新能源汽车成为了我国的支柱产业,而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而,智能驾驶技术正面临着多个挑战,包括:

1. 多模态融合问题:智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中,4D毫米波雷达-环视相机方案兼具高性能与高性价比,但对应的多模态数据差异较大,如何高效地进行融合是技术难点之一。

2. 开放世界感知问题:传统基于闭集范式的感知模型只能识别预设类别,无法处理未知类别物体进而导致事故。开集(open-set)、开放词汇(open-vocabulary)感知方法能感知任意对象,但需要用户持续输入提示词。开放式(open-ended)感知无需任何提示词即可感知所有物体,是智能驾驶领域的前沿挑战问题之一。

3. 高阶端到端VLA系统瓶颈:现有端到端、VLA智能驾驶系统系统存在三大缺陷:隐式规则学习导致罕见场景泛化差、可解释性差;模态推理割裂,VLA模型仅限语言推理,无法深度融合视觉感知与语言规则;价值对齐缺失,只优化轨迹误差,忽略交通法规、道德、防御性驾驶原则等人类偏好。

4. 场景数据合成与重建难题:高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法(NeRF、3DGS)在动态大范围场景中重建精度低、成本高、编辑能力弱,难以高效合成复杂或稀有场景。

针对上述关键问题,王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。

一、4D毫米波雷达-环视相机多模态感知架构R4Det(CVPR 2026)

R4Det针对绝对深度估计模块精度有限的问题,摒弃了稀疏的度量回归,引入序数排序损失;针对缺乏自车位姿时的时序融合问题,提出可变形门控时序融合模块,以对齐非刚性运动;针对小体积物体召回率和准确率低的问题,提出了实例引导的动态优化模块;取得了大幅领先的3D多模态检测结果。

图1 R4Det架构图

图2 R4Det取得了领先的3D目标检测结果

二、开放式目标检测和实例分割框架VL-SAM v2(NeurIPS 2025)

VL-SAM(NeurIPS 2024)是王勇涛团队提出的首个开放式目标检测和实例分割框架,无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能,在多个基准数据集上取得了领先的开放式感知结果。

图3 VL-SAM v2框架示意图

三、开放世界占据栅格自动标注系统AutoOcc(ICCV 2025)

AutoOcc是一个高效、高质量的开放式三维语义占据栅格(Occupancy)真值生成框架;基于视觉语言模型和视觉基础模型,进行多视图场景重建,无需任何人类标注即可超越现有占据栅格标注和预测管线,并展现良好的通用性和泛化能力,在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。

图4 AutoOcc方法示意图

表1 在Occ3D-nuScenes基准上,AutoOcc取得了领先的占据栅格真值标注结果

表2 在SemanticKITTI基准上,AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果

四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD(NeurIPS 2025)

OpenAD是首个面向开放世界的驾驶场景感知评测基准,并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放

图5 OpenAD评测集长尾物体示意图

图6 OpenAD所提出的开放式3D目标检测基线示意图

五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)

KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA(视觉-语言-动作)系统。它通过通专融合的开放世界感知,进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解;并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索,得到相关性由高到低排列的知识条目及其特征词元;最后通过规划模块、隐式世界模型模块和价值模型,进行价值评估,选定规划轨迹。在多个国际基准上,KnowVal均取得了领先的自动驾驶结果。

图7 KnowVal系统示意图

表3 KnowVal在nuScenes(上方)、NAVSIM(左下)、Bench2Drive(右下)基准上取得领先的自动驾驶结果

六、面向动态驾驶场景的高质量重建与可控编辑框架DrivingGaussian++(TPAMI 2026)

DrivingGaussian++是一个面向大规模动态驾驶场景的高效重建与编辑框架,通过复合高斯重建将场景分解为静态背景与动态前景,分别进行增量式重建,支持免训练的三维场景可控编辑,包括纹理修改、天气模拟和物体操控等任务,显著提升了驾驶场景数据合成的真实感与多样性。

图8 DrivingGaussian++框架示意图

表4 DrivingGaussian++取得了领先的重建结果(上表)和场景编辑效果(下方四表)

图9 DrivingGaussian++编辑结果示例

图10 DrivingGaussian++动态场景模拟示例(在自车前方添加行驶的汽车与挖掘机)

秉承王选所“顶天立地”的优良传统,王勇涛团队在智能驾驶技术方向进行了不懈的探索,获得了国家科技创新2030重大项目课题、国家自然科学基金、华为、长安汽车等科研项目支持经费逾千万元,取得的多项成果得到了学术界和工业界的广泛关注、使用和好评。

责编: 集小微
来源:北京大学 #华为# #长安汽车# #北京大学#
THE END
关闭
加载

PDF 加载中...