北京2022年12月23日 /美通社/ -- 隨著人工智能技術的廣泛應用,智能駕駛系統(tǒng)正在成為汽車的標配。而作為識別周邊環(huán)境的“火眼金睛”,“感知”模塊是智能駕駛系統(tǒng)安全、高效運行的核心,而視覺感知更是其中無比重要的一環(huán)。浪潮信息AI團隊長期關注AI算法在自動駕駛中的應用,并致力于用軟硬件的算法和技術創(chuàng)新推動行業(yè)的進步,做出創(chuàng)新性的成績。最近,浪潮信息在自動駕駛感知權威數據集 NuScenes 評測中,自研算法 DABNet4D 獲得 0. 624 的NDS精度,位列Camera-only榜單第一名。
近日,浪潮信息人工智能與高性能應用軟件部自動駕駛AI研究員趙云博士,在題為《探索自動駕駛純視覺感知精度新突破 -- 多相機的時空融合模型架構算法優(yōu)化》的自動駕駛線上研討會上,向我們揭開了這一自動駕駛感知算法的神秘面紗。
多相機多任務融合模型優(yōu)勢
自動駕駛汽車完成自動駕駛出行任務,離不開感知、決策、控制三大要素。其中感知系統(tǒng)是車輛和環(huán)境交互的紐帶,相當于無人汽車的眼睛。根據所用的傳感器以及傳感器數量和種類等,自動駕駛感知算法可以簡單的分為單傳感器(單任務和多任務)模型、(同類和不同類)傳感器融合模型等四類,并各有其優(yōu)缺點。
自動駕駛感知的關鍵是3D目標檢測任務,又分為基于相機、Lidar的3D目標檢測,以及相機、Lidar、Radar融合等技術。盡管目前對于3D目標檢測已經有不少的研究,但是在實際應用中仍然有許多的問題,其難點主要在于:
目前,基于相機的方法與基于Lidar的方法準確度差距正在縮小,而隨著Lidar成本降低,融合技術在成本和準確度的平衡上存在優(yōu)勢。
基于多相機多任務融合模型的3D目標檢測技術正是在成本優(yōu)勢與日益增長的準確度兩相促進下得到越來越多的認可。目前,多相機多任務融合模型主要遵循特征提取、特征編碼、統(tǒng)一BEV、特征解碼和檢測頭五大部分。
其中,統(tǒng)一BEV 就是鳥瞰圖,亦即將圖像特征統(tǒng)一投射到BEV視角下,用以表示車周圍環(huán)境。“統(tǒng)一BEV”的工作可以分為兩大類,一種基于幾何視覺的變換,也就是基于相機的物理原理,優(yōu)勢在于模型確定,難度在深度估計;另一種是基于神經網絡的變換。
浪潮DABNet4D算法三大創(chuàng)新突破
據趙云介紹,浪潮DABNet4D算法遵循上述框架,采用基于幾何視覺的變換方法,設計了端到端的模塊化整體架構,通過將環(huán)視圖檢測統(tǒng)一到BEV空間,為后續(xù)的工作提供了很好的模板。
DABNet4D模型被劃分為四個部分,Image-view Encoder,View-transformer,BEV-Encoder,Detection Head。其中Image-view Encoder為圖像編碼模塊將原始圖像轉換為高層特征表示。 View-Transformer模塊負責將圖像特征轉換到BEV坐標中,主要包括三個模塊:深度預測模塊、特征轉換模塊和多幀特征融合模塊。BEV-Encoder & Heads主要是對融合BEV特征進行編碼;Heads用來完成最終的3D目標檢測任務。
創(chuàng)新突破一 數據樣本增強
為平衡不同種類的樣本數量,浪潮信息AI團隊創(chuàng)新研發(fā)了基于3D的圖像貼圖技術。主要是通過從整個訓練數據集中根據每個樣本的3D真值標簽,提取樣本數據構建樣本數據庫。訓練過程中,通過在樣本數據庫中采樣獲取備選樣本集合,按照真值深度值從遠至近貼圖,并將對應的Lidar數據進行粘貼。
創(chuàng)新突破二 深度信息優(yōu)化
基于圖像的3D目標檢測,由于攝像頭拍攝的照片和視頻是將原有3D空間直接投射至2D平面中,所以會丟失深度信息,由此所面臨的核心問題為如何精確地估計圖像中物體的深度。針對此問題,浪潮信息AI團隊進行了兩方面的改進工作:一是建立更復雜的深度估計網絡,通過設計更深、更多參數的深度神經網絡,以增大深度估計網絡的預測能力和感受野;二是采用兩層級聯(lián)深度估計網絡結構,第一層估計網絡估計的深度作為特征,輸入到第二層級聯(lián)網絡中。除了進行網絡創(chuàng)新設計優(yōu)化,在訓練階段也采用深度監(jiān)督、深度補全、損失函數等優(yōu)化方法。
創(chuàng)新突破三 四維時空融合
對于自動駕駛車輛而言,它所處的環(huán)境更像是一個動態(tài)變化的三維空間。為進一步引入車輛所處的動態(tài)中的歷史,通過引入時間信息進行時序融合,提升velocity預測的精度,實現對暫時被遮擋的物體更好的跟蹤效果。對此,浪潮信息AI團隊做了以下幾點創(chuàng)新:1、更精細的時空對齊操作,使前后幀特征結合的更精確。根據不同時刻車輛的位姿以及車輛、相機、Lidar坐標系的轉換關系,獲取不同時刻相機與指定Lidar的坐標系的轉換關系,進一步減少由于采集車輛自身運動對多幀BEV特征對齊帶來的影響;2、從sweep數據幀隨機選取作為前一幀與當前幀進行匹配,大幅地增強數據的多樣性;3、不同時序幀同步進行數據樣本貼圖增強,使得速度、轉向等預測更精準。
致勝NuScenes自動駕駛評測
本次浪潮DABNet4D算法所登頂的自動駕駛NuScenes榜單,其數據集包含波士頓和新加坡兩大城市收集的大約15小時的駕駛數據,覆蓋了城市、住宅區(qū)、郊區(qū)、工業(yè)區(qū)各個場景,也涵蓋了白天、黑夜、晴天、雨天、多云等不同時段不同天氣狀況。數據采集傳感器包括了6個相機、1個激光雷達、5個毫米波雷達、以及GPS和IMU,具備360°的視野感知能力。
NuScenes數據集提供二維、三維物體標注、點云分割、高精地圖等豐富的標注信息。目前,基于NuScenes數據集的評測任務主要包括3D目標檢測(3D object Detection)、3D目標跟蹤(3D object Tracking)、預測軌跡(prediction trajectories)、激光雷達分割(Lidar Segmentation)、全景分割和跟蹤(lidar Panoptic segmentation and tracking)。其中3D目標檢測任務備受研究者關注,自從NuScenes挑戰(zhàn)賽公開以來至今,已提交220余次結果。
浪潮DABNet4D算法在訓練與評測過程中使用的底層硬件支撐是浪潮NF5488A5 AI服務器。開發(fā)過程中,模型在訓練集上進行單次訓練運行 20 個 epochs(without CBGS),需要耗費 約360 個 GPU 小時。
而為了滿足此類算法超高的AI算力需求,浪潮信息提供集群解決方案,采用 Spine-Leaf 的結構進行節(jié)點擴展,集成超 2000 GPU 卡集群,達到 90% 的擴展性。同時,該評測也是在 AIStation 的平臺基礎上進行開發(fā),有效加速了浪潮DABNet4D算法的開發(fā)與訓練。
自動駕駛技術發(fā)展撬動AI算力需求爆發(fā)
自動駕駛技術感知路線之爭一直是行業(yè)關注的焦點,雖然特斯拉純視覺方案在業(yè)內獨領風騷,但多傳感融合方案被業(yè)內視為實現自動駕駛安全冗余的關鍵手段。
為了更好的衡量3D檢測效果,其評價指標已經從原來的2D的AP已經逐漸變?yōu)锳P-3D和AP-BEV。在數據集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥腘uScenes數據集。
未來,基于LiDAR、相機等多源感知融合算法將有力地提升模型的檢測精度,同時,Occupancy network、Nerf等先進算法模型也會逐步應用于自動駕駛感知模型的開發(fā)與訓練中。
自動駕駛數據量急劇增大、自動駕駛感知模型復雜度逐步提升,以及模型更新頻率逐漸加快,都將推動自動駕駛的蓬勃發(fā)展,也必然帶來更大的模型訓練算力需求。
【更多研討會精彩瞬間,請訪問“視頻號-浪潮數據中心業(yè)務-12月9日直播回放】