浪潮信息：自動駕駛多攝像頭BEV場景表示論文入選CVPR 2022

浪潮信息

2022-07-05 08:55 5609

北京2022年7月4日 /美通社/ -- 近日，在國際計算機與模式識別會議CVPR 2022期間，浪潮信息AI團隊提交的論文《Scene Representation in Bird's-Eye View from Surrounding Cameras with Transformers（基于Transformer的多攝像頭BEV場景表示）》成功入選。論文提出了一種基于Transformer的圖像-BEV特征轉換框架，能夠生成有效的環(huán)境表示，可以提升自動駕駛車輛對周圍環(huán)境的感知能力。CVPR是計算機視覺領域三大世界頂級會議之一，今年線下注冊參會人數(shù)達到了5641人。在論文方面，CVPR 2022共收到了8161篇投稿，最終接收了2064篇論文，接收率約為25.3%，論文研究方向涵蓋目標檢測、圖像分割、醫(yī)學影像、模型壓縮、圖像處理、文本檢測等。

感知系統(tǒng)是自動駕駛車輛的"眼睛"，高效準確的感知模塊可以提升自動駕駛車輛的安全性。相比價格較為昂貴的激光雷達設備，單目攝像頭價格低廉，且能夠捕捉豐富的環(huán)境信息。近年來，研究者們提出了鳥視圖（Bird's Eye View map，簡稱BEV map）來簡潔高效地表示車輛周圍環(huán)境信息。直接將每張圖像的檢測結果通過攝像頭參數(shù)轉換到BEV下是一種直接、簡單的鳥瞰圖構建方法。然而，如何融合多攝像頭結果形成統(tǒng)一、穩(wěn)定的環(huán)境表示是十分困難的。

浪潮信息AI團隊研究了如何利用環(huán)形攝像頭陣列來對BEV視角的環(huán)境進行特征表示。他們設計了一種基于Transformer的編解碼模塊，將圖像特征轉換為對應的BEV特征。為驗證轉換后的BEV特征的有效性，論文引入了三個分割任務：車輛分割、道路分割和車道線分割。整個模型框架如下圖所示，由環(huán)形攝像頭陣列采集的圖像，通過共享的圖像編碼器得到各種的圖像特征。然后，CBTR（Camera-BEV Transformation）模塊將圖像特征轉換為對應的BEV特征。最后，利用生成的BEV特征圖，多個檢測頭分別完成各自的分割任務。

模型架構圖

與之前的方法不同，基于Transformer的編解碼結構可以將圖像特征"翻譯"為BEV特征。具體結構如下圖所示。其中，Encoder模塊旨在發(fā)掘不同攝像頭之間的特征關聯(lián)，Decoder模塊旨在利用局部和全局信息將圖像特征轉換為有效的BEV特征。

CBTR模塊流程圖

研究團隊在浪潮AI服務器NF5488A5上進行了框架的訓練和測試。在對比實驗中，研究團隊在nuScenes數(shù)據(jù)集上對比了當前最好的LS模型，采用相同的輸入圖像配置和圖像特征提取網(wǎng)絡，測試結果證明論文的框架相比LS具有準確度和速度方面的優(yōu)勢。此外，這篇論文還進行了各種消融實驗，證明相比于機器學習的位置編碼，設計的固定編碼方式取得了最優(yōu)的檢測性能。

本文方法與LS的分割結果示例對比