AI應用大咖說：多相機的時空融合模型架構算法優(yōu)化

浪潮信息

2022-12-23 11:18 5361

北京2022年12月23日 /美通社/ -- 隨著人工智能技術的廣泛應用，智能駕駛系統(tǒng)正在成為汽車的標配。而作為識別周邊環(huán)境的“火眼金睛”，“感知”模塊是智能駕駛系統(tǒng)安全、高效運行的核心，而視覺感知更是其中無比重要的一環(huán)。浪潮信息AI團隊長期關注AI算法在自動駕駛中的應用，并致力于用軟硬件的算法和技術創(chuàng)新推動行業(yè)的進步，做出創(chuàng)新性的成績。最近，浪潮信息在自動駕駛感知權威數據集 NuScenes 評測中，自研算法 DABNet4D 獲得 0. 624 的NDS精度，位列Camera-only榜單第一名。

近日，浪潮信息人工智能與高性能應用軟件部自動駕駛AI研究員趙云博士，在題為《探索自動駕駛純視覺感知精度新突破 -- 多相機的時空融合模型架構算法優(yōu)化》的自動駕駛線上研討會上，向我們揭開了這一自動駕駛感知算法的神秘面紗。

多相機多任務融合模型優(yōu)勢

自動駕駛汽車完成自動駕駛出行任務，離不開感知、決策、控制三大要素。其中感知系統(tǒng)是車輛和環(huán)境交互的紐帶，相當于無人汽車的眼睛。根據所用的傳感器以及傳感器數量和種類等，自動駕駛感知算法可以簡單的分為單傳感器（單任務和多任務）模型、（同類和不同類）傳感器融合模型等四類，并各有其優(yōu)缺點。

自動駕駛感知的關鍵是3D目標檢測任務，又分為基于相機、Lidar的3D目標檢測，以及相機、Lidar、Radar融合等技術。盡管目前對于3D目標檢測已經有不少的研究，但是在實際應用中仍然有許多的問題，其難點主要在于：

遮擋，遮擋分為兩種情況，目標物體相互遮擋和目標物體被背景遮擋
截斷，部分物體被圖片截斷，在圖片中只能顯示部分物體
小目標，相對輸入圖片大小，目標物體所占像素點極少
缺失深度信息，2D圖片相對于激光數據存在信息稠密、成本低的優(yōu)勢，但是也存在缺失深度信息的缺點
現有方式大都依賴于物體表面紋理或結構特征，容易造成混淆。

目前，基于相機的方法與基于Lidar的方法準確度差距正在縮小，而隨著Lidar成本降低，融合技術在成本和準確度的平衡上存在優(yōu)勢。

基于多相機多任務融合模型的3D目標檢測技術正是在成本優(yōu)勢與日益增長的準確度兩相促進下得到越來越多的認可。目前，多相機多任務融合模型主要遵循特征提取、特征編碼、統(tǒng)一BEV、特征解碼和檢測頭五大部分。

其中，統(tǒng)一BEV 就是鳥瞰圖，亦即將圖像特征統(tǒng)一投射到BEV視角下，用以表示車周圍環(huán)境。“統(tǒng)一BEV”的工作可以分為兩大類，一種基于幾何視覺的變換，也就是基于相機的物理原理，優(yōu)勢在于模型確定，難度在深度估計；另一種是基于神經網絡的變換。

浪潮DABNet4D算法三大創(chuàng)新突破

據趙云介紹，浪潮DABNet4D算法遵循上述框架，采用基于幾何視覺的變換方法，設計了端到端的模塊化整體架構，通過將環(huán)視圖檢測統(tǒng)一到BEV空間，為后續(xù)的工作提供了很好的模板。

DABNet4D模型被劃分為四個部分，Image-view Encoder，View-transformer，BEV-Encoder，Detection Head。其中Image-view Encoder為圖像編碼模塊將原始圖像轉換為高層特征表示。 View-Transformer模塊負責將圖像特征轉換到BEV坐標中，主要包括三個模塊：深度預測模塊、特征轉換模塊和多幀特征融合模塊。BEV-Encoder & Heads主要是對融合BEV特征進行編碼；Heads用來完成最終的3D目標檢測任務。

創(chuàng)新突破一數據樣本增強

為平衡不同種類的樣本數量，浪潮信息AI團隊創(chuàng)新研發(fā)了基于3D的圖像貼圖技術。主要是通過從整個訓練數據集中根據每個樣本的3D真值標簽，提取樣本數據構建樣本數據庫。訓練過程中，通過在樣本數據庫中采樣獲取備選樣本集合，按照真值深度值從遠至近貼圖，并將對應的Lidar數據進行粘貼。

創(chuàng)新突破二深度信息優(yōu)化

基于圖像的3D目標檢測，由于攝像頭拍攝的照片和視頻是將原有3D空間直接投射至2D平面中，所以會丟失深度信息，由此所面臨的核心問題為如何精確地估計圖像中物體的深度。針對此問題，浪潮信息AI團隊進行了兩方面的改進工作：一是建立更復雜的深度估計網絡，通過設計更深、更多參數的深度神經網絡，以增大深度估計網絡的預測能力和感受野；二是采用兩層級聯(lián)深度估計網絡結構，第一層估計網絡估計的深度作為特征，輸入到第二層級聯(lián)網絡中。除了進行網絡創(chuàng)新設計優(yōu)化，在訓練階段也采用深度監(jiān)督、深度補全、損失函數等優(yōu)化方法。

創(chuàng)新突破三四維時空融合

對于自動駕駛車輛而言，它所處的環(huán)境更像是一個動態(tài)變化的三維空間。為進一步引入車輛所處的動態(tài)中的歷史，通過引入時間信息進行時序融合，提升velocity預測的精度，實現對暫時被遮擋的物體更好的跟蹤效果。對此，浪潮信息AI團隊做了以下幾點創(chuàng)新：1、更精細的時空對齊操作，使前后幀特征結合的更精確。根據不同時刻車輛的位姿以及車輛、相機、Lidar坐標系的轉換關系，獲取不同時刻相機與指定Lidar的坐標系的轉換關系，進一步減少由于采集車輛自身運動對多幀BEV特征對齊帶來的影響；2、從sweep數據幀隨機選取作為前一幀與當前幀進行匹配，大幅地增強數據的多樣性；3、不同時序幀同步進行數據樣本貼圖增強，使得速度、轉向等預測更精準。

致勝NuScenes自動駕駛評測

本次浪潮DABNet4D算法所登頂的自動駕駛NuScenes榜單，其數據集包含波士頓和新加坡兩大城市收集的大約15小時的駕駛數據，覆蓋了城市、住宅區(qū)、郊區(qū)、工業(yè)區(qū)各個場景，也涵蓋了白天、黑夜、晴天、雨天、多云等不同時段不同天氣狀況。數據采集傳感器包括了6個相機、1個激光雷達、5個毫米波雷達、以及GPS和IMU，具備360°的視野感知能力。

NuScenes數據集提供二維、三維物體標注、點云分割、高精地圖等豐富的標注信息。目前，基于NuScenes數據集的評測任務主要包括3D目標檢測（3D object Detection）、3D目標跟蹤（3D object Tracking）、預測軌跡（prediction trajectories）、激光雷達分割(Lidar Segmentation)、全景分割和跟蹤（lidar Panoptic segmentation and tracking）。其中3D目標檢測任務備受研究者關注，自從NuScenes挑戰(zhàn)賽公開以來至今，已提交220余次結果。

浪潮DABNet4D算法在訓練與評測過程中使用的底層硬件支撐是浪潮NF5488A5 AI服務器。開發(fā)過程中，模型在訓練集上進行單次訓練運行 20 個 epochs（without CBGS），需要耗費約360 個 GPU 小時。

而為了滿足此類算法超高的AI算力需求，浪潮信息提供集群解決方案，采用 Spine-Leaf 的結構進行節(jié)點擴展，集成超 2000 GPU 卡集群，達到 90% 的擴展性。同時，該評測也是在 AIStation 的平臺基礎上進行開發(fā)，有效加速了浪潮DABNet4D算法的開發(fā)與訓練。

自動駕駛技術發(fā)展撬動AI算力需求爆發(fā)

自動駕駛技術感知路線之爭一直是行業(yè)關注的焦點，雖然特斯拉純視覺方案在業(yè)內獨領風騷，但多傳感融合方案被業(yè)內視為實現自動駕駛安全冗余的關鍵手段。

為了更好的衡量3D檢測效果，其評價指標已經從原來的2D的AP已經逐漸變?yōu)锳P-3D和AP-BEV。在數據集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥腘uScenes數據集。

未來，基于LiDAR、相機等多源感知融合算法將有力地提升模型的檢測精度，同時，Occupancy network、Nerf等先進算法模型也會逐步應用于自動駕駛感知模型的開發(fā)與訓練中。

自動駕駛數據量急劇增大、自動駕駛感知模型復雜度逐步提升，以及模型更新頻率逐漸加快，都將推動自動駕駛的蓬勃發(fā)展，也必然帶來更大的模型訓練算力需求。

【更多研討會精彩瞬間，請訪問“視頻號-浪潮數據中心業(yè)務-12月9日直播回放】

消息來源：浪潮信息