時間:2026-02-02 09:06
來源:中國固廢網(wǎng)
作者:徐冰冰
12月19日,“ 2025(第三屆)AI+環(huán)衛(wèi)高峰論壇”順利舉辦,清華大學自動化系助理研究員、博士后趙林清受邀出席,并作題為《大模型時代下的自動駕駛》的專題發(fā)言。
發(fā)言中,趙林清系統(tǒng)回顧了人工智能與智能交通融合的發(fā)展歷程,深入剖析了自動駕駛視覺感知核心技術,分享了團隊最新研究成果,并對行業(yè)未來安全發(fā)展方向提出展望,為環(huán)衛(wèi)行業(yè)等低速自動駕駛應用場景的技術革新提供了重要參考。

趙林清
AI與智能交通融合演進:從規(guī)則駕駛到智能自動駕駛
趙林清在發(fā)言中首先梳理了AI與智能交通結合的演進脈絡。他指出,二者的交集始于20世紀50年代的交通流計算機模擬,歷經(jīng)70年代專家系統(tǒng)解決交通問題的應用探索;90年代智能交通系統(tǒng)雛形出現(xiàn);21世紀初GPS導航商業(yè)化落地,在2010年迎來自動駕駛技術快速發(fā)展期,進入2020年后,智能交通設施的規(guī)?;渴鹜苿佣呷诤铣掷m(xù)深化,整體完成了從規(guī)則控制駕駛到智能自動駕駛的跨越。
自動駕駛核心攻關方向與視覺感知技術解析
作為新一代智能視覺感知系統(tǒng)的核心應用,自動駕駛需攻克四大關鍵問題:環(huán)境感知(三維檢測、占有預測、場景重建等)、行為預測(碰撞預測、軌跡預測、行人預測等)、自主決策(軌跡規(guī)劃、自主泊車、安全避障等)及車路協(xié)同(車間通信、人車通信、車路聯(lián)網(wǎng)等),最終實現(xiàn)感知、控制、決策一體化的智能系統(tǒng)構建。
趙林清重點解讀了自動駕駛感知技術的核心目標——高效三維重建和精準場景理解,并將其分為低層與高層視覺感知兩大層面。
低層視覺感知聚焦“還原三維世界”,通過深度估計、鳥瞰圖預測、語義占有預測、神經(jīng)輻射場重建等技術,將二維圖像投影的三維世界信息還原重建;高層視覺感知則側重“場景理解與推理”,通過三維實例分割、三維物體檢測、車道線預測、交通信號識別等技術,實現(xiàn)車輛、距離、車道線、交通信號燈等關鍵元素的快速識別與邏輯推理。
他介紹,自動駕駛車輛通過多模態(tài)傳感器協(xié)同工作實現(xiàn)全面感知,包括GPS定位、慣性傳感器、激光雷達、中控電腦、紅外傳感器、雷達傳感器等,這些設備分別承擔“視覺觀測、距離測量、運動感知”的功能,共同構成自動駕駛系統(tǒng)的“感知體系”。
當前主流視覺感知技術方案分為兩類:一是以特斯拉為代表的純視覺方案,依托8個及以上攝像頭結合毫米波雷達等簡單傳感器,模擬人類駕駛過程,成本最低但技術開發(fā)難度最大;二是多傳感器融合方案,以激光雷達與視覺融合為核心,國內多數(shù)企業(yè)因安全性冗余需求采用該路線,但存在成本較高的問題。
趙林清團隊核心研究方向聚焦純視覺方案,其技術理念源于馬斯克“第一性原理”——人類駕駛僅依靠視覺與經(jīng)驗判斷,通過強化模型能力即可模擬人類駕駛邏輯。他補充道,激光雷達在遠距離物體識別中存在準確率下降的缺陷,而視覺傳感器技術成熟,以特斯拉、百度為代表的頭部廠商均以視覺感知為核心,這也成為自動駕駛的主流發(fā)展趨勢。
大模型時代技術趨勢:團隊閉環(huán)駕駛模型成果分享
針對大模型時代自動駕駛的發(fā)展方向,趙林清提出“生成式、自監(jiān)督、空間感知”三大核心趨勢。他介紹,其團隊10余名成員專注于自動駕駛大模型研究,提出“基于三維場景表示的自監(jiān)督閉環(huán)駕駛模型”,相關成果已實現(xiàn)開源,自2022年切入該領域以來,已與華為、理想、長安汽車等多家車企達成深度技術合作。
團隊研究歷經(jīng)從基于深度的三維場景表示到跨視角全場景占用表示的升級,將三維空間劃分為密集格子,通過“格子占用狀態(tài)”實現(xiàn)核心表示;同時推動自動駕駛范式從分段式端到端向基于世界模型的生成式自動駕駛演進。趙林清解釋,世界模型可模擬駕駛動作的后續(xù)影響,解決自動駕駛訓練中“特殊場景數(shù)據(jù)稀缺”的痛點——通過精準預測未來場景,生成車禍、突發(fā)并道等稀有高價值數(shù)據(jù),為模型訓練提供充足支撐。
基于此,團隊發(fā)布閉環(huán)自動駕駛大模型Doe-1,首次提出“閉環(huán)自動駕駛”概念,實現(xiàn)“觀測-描述-動作-未來畫面生成”的閉環(huán)鏈路,可完成視覺問答、條件圖像生成等任務,通過不同動作驅動生成多樣化場景結果。
現(xiàn)場,趙林清展示了demo功能,該模型可實現(xiàn)時間靜止、空間靜止、多視角仿真等效果,生成的圖像達到以假亂真水平,能夠按需產(chǎn)生海量訓練數(shù)據(jù)。此外,團隊研發(fā)的可交互世界模型,可基于單張圖像模擬真實場景運轉規(guī)律,支持用戶自由切換位置與視角,直觀呈現(xiàn)場景變化。
未來展望:聚焦自動駕駛安全,筑牢行業(yè)發(fā)展根基
展望未來,趙林清強調,自動駕駛安全是核心前提,無論是高速自動駕駛還是環(huán)衛(wèi)行業(yè)低速自動駕駛,均需重點關注兩大安全方向:一是感知傳感器安全性,通過引入虛擬相機空間,將不同配置相機輸入統(tǒng)一映射,實現(xiàn)多配置相機的高效遷移與統(tǒng)一感知;二是場景變化下的安全性,針對現(xiàn)有數(shù)據(jù)驅動框架泛化性、魯棒性不足,惡劣天氣下表現(xiàn)不佳的問題,可通過數(shù)據(jù)仿真平臺與視頻生成技術,生成高真實性、強交互性的感知決策環(huán)境,提升數(shù)據(jù)魯棒性與規(guī)?;?。
趙林清總結指出,自動駕駛有望成為新一代人工智能核心技術,引爆新一輪技術革新,對國家發(fā)展具有重大戰(zhàn)略意義;高效精準感知是自動駕駛系統(tǒng)的重要前提,三維場景表示方法是行業(yè)發(fā)展的核心推動力,而基于三維場景表示的自監(jiān)督閉環(huán)駕駛模型,將為下一代自動駕駛系統(tǒng)構建奠定基礎。
編輯:徐冰冰
版權聲明: 凡注明來源為“中國水網(wǎng)/中國固廢網(wǎng)/中國大氣網(wǎng)“的所有內容,包括但不限于文字、圖表、音頻視頻等,版權均屬E20環(huán)境平臺所有,如有轉載,請注明來源和作者。E20環(huán)境平臺保留責任追究的權利。
