国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
0. 寫在前面&&個(gè)人理解
1. 數(shù)據(jù)集
2. 基于視覺的3D目標(biāo)檢測(cè)
2.1 Monocular 3D object detection
Prior-guided monocular 3D object detection
Camera-only monocular 3D object detection
Depth-assisted monocular 3D object detection
2.2 Stereo-based 3D object detection
2.3 Multi-view 3D object detection
Depth-based Multi-view methods:
Query-based Multi-view methods
2.4 Analysis: Accuracy, Latency, Robustness
3. 基于Lidar的3D目標(biāo)檢測(cè)
3.1 Voxel-based 3D object detection
3.2 Point-based 3D object detection
基于PointNet的方法
基于圖神經(jīng)網(wǎng)絡(luò)的方法
基于Transformer的方法
3.3 ?Point-Voxel based 3D object detection
4.多模態(tài)3D目標(biāo)檢測(cè)
4.1 Projection-based 3D object detection
4.2 Non-Projection-based 3D object detection
5. 結(jié)論
首頁(yè) 科技周邊 人工智能 選擇相機(jī)還是激光雷達(dá)?實(shí)現(xiàn)魯棒的三維目標(biāo)檢測(cè)的最新綜述

選擇相機(jī)還是激光雷達(dá)?實(shí)現(xiàn)魯棒的三維目標(biāo)檢測(cè)的最新綜述

Jan 26, 2024 am 11:18 AM
3d 自動(dòng)駕駛

0. 寫在前面&&個(gè)人理解

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

自動(dòng)駕駛系統(tǒng)依賴于先進(jìn)的感知、決策和控制技術(shù),通過(guò)使用各種傳感器(如相機(jī)、激光雷達(dá)、雷達(dá)等)來(lái)感知周圍環(huán)境,并利用算法和模型進(jìn)行實(shí)時(shí)分析和決策。這使得車輛能夠識(shí)別道路標(biāo)志、檢測(cè)和跟蹤其他車輛、預(yù)測(cè)行人行為等,從而安全地操作和適應(yīng)復(fù)雜的交通環(huán)境.這項(xiàng)技術(shù)目前引起了廣泛的關(guān)注,并認(rèn)為是未來(lái)交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動(dòng)駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動(dòng)駕駛系統(tǒng)中的三維物體檢測(cè)算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、形狀、大小和類別。這種全面的環(huán)境意識(shí)有助于自動(dòng)駕駛系統(tǒng)更好地了解駕駛環(huán)境,并做出更精確的決策。

我們對(duì)自動(dòng)駕駛中的3D物體檢測(cè)算法進(jìn)行了全面評(píng)估,主要考慮了穩(wěn)健性。評(píng)估中確定了三個(gè)關(guān)鍵因素:環(huán)境變化性、傳感器噪聲和誤對(duì)準(zhǔn)。這些因素對(duì)于檢測(cè)算法在真實(shí)世界多變條件下的性能表現(xiàn)非常重要。

  1. 環(huán)境變化性:?文章強(qiáng)調(diào)檢測(cè)算法需要適應(yīng)不同的環(huán)境條件,如光照、天氣和季節(jié)的變化。
  2. 傳感器噪聲:?算法必須有效處理傳感器的噪聲,可能包括攝像機(jī)的運(yùn)動(dòng)模糊等問題。
  3. 誤對(duì)準(zhǔn):?對(duì)于由校準(zhǔn)錯(cuò)誤或其他因素引起的誤對(duì)準(zhǔn),算法需要考慮到這些因素,無(wú)論是外部的(如不平坦的路面)還是內(nèi)部的(例如系統(tǒng)時(shí)鐘誤對(duì)準(zhǔn))。

還深入探討了性能評(píng)估的三個(gè)關(guān)鍵領(lǐng)域:準(zhǔn)確性、延遲和穩(wěn)健性。

  • 準(zhǔn)確性:盡管研究通常將準(zhǔn)確性作為關(guān)鍵性能指標(biāo),但在復(fù)雜和極端條件下的表現(xiàn)需要更深入的理解,以確保真實(shí)世界的可靠性。
  • 延遲:?自動(dòng)駕駛中的實(shí)時(shí)能力至關(guān)重要。檢測(cè)方法的延遲影響系統(tǒng)及時(shí)決策的能力,特別是在緊急情況下。
  • 穩(wěn)健性:?呼吁對(duì)系統(tǒng)在不同條件下的穩(wěn)定性進(jìn)行更全面的評(píng)估,因?yàn)樵S多當(dāng)前的評(píng)估可能沒有完全考慮到真實(shí)世界場(chǎng)景的多樣性。

論文指出了多模態(tài)3D檢測(cè)方法在安全感知方面的顯著優(yōu)勢(shì),通過(guò)融合不同傳感器的數(shù)據(jù),提供了更豐富、多樣化的感知能力,進(jìn)而提高了自動(dòng)駕駛系統(tǒng)的安全性。

1. 數(shù)據(jù)集

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

上述簡(jiǎn)要介紹了用于自動(dòng)駕駛系統(tǒng)中的3D物體檢測(cè)數(shù)據(jù)集,主要關(guān)注評(píng)估不同傳感器模式的優(yōu)勢(shì)和局限性,以及公共數(shù)據(jù)集的特點(diǎn)。

首先,表格中展示了三種類型的傳感器:相機(jī)、點(diǎn)云和多模態(tài)(相機(jī)和激光雷達(dá))。對(duì)于每種類型,列出了它們的硬件成本、優(yōu)點(diǎn)和局限性。相機(jī)數(shù)據(jù)的優(yōu)點(diǎn)在于提供豐富的顏色和紋理信息,但它的局限性是缺乏深度信息且易受光線和天氣影響。激光雷達(dá)則能提供準(zhǔn)確的深度信息,但成本高且沒有顏色信息。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

接下來(lái),還有一些其他公共數(shù)據(jù)集可用于自動(dòng)駕駛中的3D物體檢測(cè)。這些數(shù)據(jù)集包括KITTI、nuScenes和Waymo等。這些數(shù)據(jù)集的詳細(xì)信息如下: - KITTI數(shù)據(jù)集包含了多個(gè)年份發(fā)布的數(shù)據(jù),使用了不同類型的傳感器。它提供了大量的幀數(shù)和注釋數(shù)量,以及各種場(chǎng)景的多樣性,包括場(chǎng)景數(shù)量和類別,以及不同的場(chǎng)景類型,如白天、晴天、夜晚和雨天等。 - nuScenes數(shù)據(jù)集也是一個(gè)重要的數(shù)據(jù)集,它同樣包含了多個(gè)年份發(fā)布的數(shù)據(jù)。該數(shù)據(jù)集使用了多種傳感器,并提供了大量的幀數(shù)和注釋數(shù)量。它覆蓋了各種場(chǎng)景,包括不同的場(chǎng)景數(shù)量和類別,以及各種場(chǎng)景類型。 - Waymo數(shù)據(jù)集是另一個(gè)用于自動(dòng)駕駛的數(shù)據(jù)集,同樣具有多個(gè)年份的數(shù)據(jù)。該數(shù)據(jù)集使用了不同類型的傳感器,并提供了豐富的幀數(shù)和注釋數(shù)量。它涵蓋了各種場(chǎng)

此外,還提到了關(guān)于“干凈”自動(dòng)駕駛數(shù)據(jù)集的研究,并強(qiáng)調(diào)了在噪聲場(chǎng)景下評(píng)估模型穩(wěn)健性的重要性。一些研究關(guān)注在惡劣條件下的相機(jī)單模態(tài)方法,而其他的多模態(tài)數(shù)據(jù)集則專注于噪聲問題。例如,GROUNDED數(shù)據(jù)集關(guān)注在不同天氣條件下地面穿透雷達(dá)的定位,而ApolloScape開放數(shù)據(jù)集包括了激光雷達(dá)、相機(jī)和GPS數(shù)據(jù),涵蓋了多種天氣和光照條件。

由于在真實(shí)世界中收集大規(guī)模噪聲數(shù)據(jù)的成本過(guò)高,許多研究轉(zhuǎn)向使用合成數(shù)據(jù)集。例如,ImageNet-C是在圖像分類模型中對(duì)抗常見擾動(dòng)的基準(zhǔn)研究。這一研究方向隨后擴(kuò)展到為自動(dòng)駕駛中的3D物體檢測(cè)量身定制的穩(wěn)健性數(shù)據(jù)集。

2. 基于視覺的3D目標(biāo)檢測(cè)

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

2.1 Monocular 3D object detection

在這部分內(nèi)容中,討論了單目3D物體檢測(cè)的概念以及三種主要的方法:基于先驗(yàn)的單目3D物體檢測(cè)、僅相機(jī)的單目3D物體檢測(cè)和深度輔助的單目3D物體檢測(cè)。

Prior-guided monocular 3D object detection

這種方法利用隱藏在圖像中的物體形狀和場(chǎng)景幾何學(xué)的先驗(yàn)知識(shí)來(lái)解決單目3D物體檢測(cè)的挑戰(zhàn)。通過(guò)引入預(yù)訓(xùn)練的子網(wǎng)絡(luò)或輔助任務(wù),先驗(yàn)知識(shí)可以提供額外信息或約束來(lái)幫助精確定位3D物體,增強(qiáng)檢測(cè)的精度和穩(wěn)健性。常見的先驗(yàn)知識(shí)包括物體形狀、幾何一致性、時(shí)間約束和分割信息。例如,Mono3D算法首先假設(shè)3D物體位于固定的地面平面上,然后使用物體的先驗(yàn)3D形狀來(lái)在3D空間中重建邊界框。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

Camera-only monocular 3D object detection

這種方法僅使用單個(gè)相機(jī)捕獲的圖像來(lái)檢測(cè)和定位3D物體。它采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接從圖像中回歸3D邊界框參數(shù),從而估計(jì)物體在三維空間中的尺寸和姿態(tài)。這種直接回歸方法可以以端到端的方式進(jìn)行訓(xùn)練,促進(jìn)了3D物體的整體學(xué)習(xí)和推斷。例如,Smoke算法摒棄了2D邊界框的回歸,通過(guò)結(jié)合單個(gè)關(guān)鍵點(diǎn)的估計(jì)和3D變量的回歸來(lái)預(yù)測(cè)每個(gè)檢測(cè)目標(biāo)的3D框。

Depth-assisted monocular 3D object detection

深度估計(jì)在深度輔助的單目3D物體檢測(cè)中扮演著關(guān)鍵角色。為了實(shí)現(xiàn)更準(zhǔn)確的單目檢測(cè)結(jié)果,許多研究利用預(yù)訓(xùn)練的輔助深度估計(jì)網(wǎng)絡(luò)。這個(gè)過(guò)程首先通過(guò)使用預(yù)訓(xùn)練的深度估計(jì)器(如MonoDepth)將單目圖像轉(zhuǎn)換為深度圖像。然后,采用兩種主要方法來(lái)處理深度圖像和單目圖像。例如,Pseudo-LiDAR檢測(cè)器使用預(yù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)生成Pseudo-LiDAR表示,但由于圖像到LiDAR生成的錯(cuò)誤,Pseudo-LiDAR與基于LiDAR的檢測(cè)器之間存在巨大的性能差距。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

通過(guò)這些方法的探索和應(yīng)用,單目3D物體檢測(cè)在計(jì)算機(jī)視覺和智能系統(tǒng)領(lǐng)域取得了顯著進(jìn)展,為這些領(lǐng)域帶來(lái)了突破和機(jī)遇。

2.2 Stereo-based 3D object detection

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

在這部分內(nèi)容中,討論了基于立體視覺的3D物體檢測(cè)技術(shù)。立體視覺3D物體檢測(cè)利用一對(duì)立體圖像來(lái)識(shí)別和定位3D物體。通過(guò)利用立體攝像機(jī)捕獲的雙重視角,這些方法在通過(guò)立體匹配和校準(zhǔn)獲取高精度深度信息方面表現(xiàn)出色,這是它們與單目攝像機(jī)設(shè)置不同的特點(diǎn)。盡管存在這些優(yōu)勢(shì),與基于激光雷達(dá)的方法相比,立體視覺方法仍存在相當(dāng)大的性能差距。此外,從立體圖像中進(jìn)行3D物體檢測(cè)的領(lǐng)域相對(duì)較少被探索,僅有限的研究工作致力于這一領(lǐng)域。

  1. 2D-detection based methods:傳統(tǒng)的2D物體檢測(cè)框架可以修改以解決立體檢測(cè)問題。例如,Stereo R-CNN使用基于圖像的2D檢測(cè)器來(lái)預(yù)測(cè)2D提議,為相應(yīng)的左右圖像生成左右感興趣區(qū)域(RoIs)。隨后,在第二階段,它直接估計(jì)基于之前生成的RoIs的3D物體參數(shù)。這種范式被后續(xù)的工作廣泛采用。
  2. Pseudo-LiDAR based methods:從立體圖像預(yù)測(cè)的視差圖可以轉(zhuǎn)換為深度圖,進(jìn)一步轉(zhuǎn)換為偽激光雷達(dá)點(diǎn)。因此,類似于單目檢測(cè)方法,偽激光雷達(dá)表示也可以用于基于立體視覺的3D物體檢測(cè)方法。這些方法旨在增強(qiáng)立體匹配中的視差估計(jì),以實(shí)現(xiàn)更準(zhǔn)確的深度預(yù)測(cè)。例如,Wang等人是引入偽激光雷達(dá)表示的先驅(qū)。這種表示是由具有深度圖的圖像生成的,要求模型執(zhí)行深度估計(jì)任務(wù)以協(xié)助檢測(cè)。隨后的工作遵循了這一范式,并通過(guò)引入額外的顏色信息來(lái)增強(qiáng)偽點(diǎn)云、輔助任務(wù)(如實(shí)例分割、前景和背景分割、領(lǐng)域適應(yīng))和坐標(biāo)變換方案進(jìn)行了優(yōu)化。值得注意的是,Ma等人提出的PatchNet挑戰(zhàn)了利用偽激光雷達(dá)表示進(jìn)行單目3D物體檢測(cè)的傳統(tǒng)觀念。通過(guò)為每個(gè)像素編碼3D坐標(biāo),PatchNet可以在沒有偽激光雷達(dá)表示的情況下獲得可比較的單目檢測(cè)結(jié)果。這一觀察表明,偽激光雷達(dá)表示的力量來(lái)源于坐標(biāo)變換,而不是點(diǎn)云表示本身。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

2.3 Multi-view 3D object detection

最近,多視圖3D物體檢測(cè)在精度和穩(wěn)健性方面相較于前述的單目和立體視覺3D物體檢測(cè)方法表現(xiàn)出了優(yōu)越性。與基于激光雷達(dá)的3D物體檢測(cè)不同,最新的全景鳥瞰視圖(BEV)方法消除了對(duì)高精度地圖的需求,將檢測(cè)從2D提升到3D。這一進(jìn)展帶來(lái)了多視角3D物體檢測(cè)的重大發(fā)展。在多攝像頭3D物體檢測(cè)中,關(guān)鍵挑戰(zhàn)在于識(shí)別不同圖像中的同一物體并從多視角輸入中聚合物體特征。目前的方法涉及將多視角統(tǒng)一映射到鳥瞰視圖(BEV)空間,這是一種常見的做法。

Depth-based Multi-view methods:

從2D到BEV空間的直接轉(zhuǎn)換構(gòu)成了一個(gè)重大挑戰(zhàn)。LSS是首個(gè)提出基于深度的方法的,它利用3D空間作為中介。這種方法首先預(yù)測(cè)2D特征的網(wǎng)格深度分布,然后將這些特征提升到體素空間。這種方法為更有效地實(shí)現(xiàn)從2D到BEV空間的轉(zhuǎn)換提供了希望。繼LSS之后,CaDDN采用了類似的深度表示方法。通過(guò)將體素空間特征壓縮到BEV空間,它執(zhí)行最終的3D檢測(cè)。值得注意的是,CaDDN并不是多視角3D物體檢測(cè)的一部分,而是單視角3D物體檢測(cè),它對(duì)隨后的深度研究產(chǎn)生了影響。LSS和CaDDN的主要區(qū)別在于CaDDN使用實(shí)際的地面真實(shí)深度值來(lái)監(jiān)督其分類深度分布的預(yù)測(cè),從而創(chuàng)建了一個(gè)能夠更準(zhǔn)確地從2D空間提取3D信息的出色深度網(wǎng)絡(luò)。

Query-based Multi-view methods

在Transformer技術(shù)的影響下,基于query的多視角方法從3D空間檢索2D空間特征。DETR3D引入了3D物體query來(lái)解決多視角特征的聚合問題。它通過(guò)從不同視角剪輯圖像特征,并使用學(xué)習(xí)到的3D參考點(diǎn)將它們投影到2D空間,從而在鳥瞰視圖(BEV)空間獲得圖像特征。與基于深度的多視角方法不同,基于query的多視角方法通過(guò)使用反向query技術(shù)獲得稀疏BEV特征,從根本上影響了后續(xù)基于query的發(fā)展。然而,由于與顯式3D參考點(diǎn)相關(guān)的潛在不準(zhǔn)確性,PETR采用了隱式位置編碼方法來(lái)構(gòu)建BEV空間,影響了后續(xù)的工作。

2.4 Analysis: Accuracy, Latency, Robustness

當(dāng)前,基于鳥瞰視圖(BEV)感知的3D物體檢測(cè)解決方案正在迅速發(fā)展。盡管存在許多綜述文章,但對(duì)這一領(lǐng)域的全面回顧仍然不足。上海AI實(shí)驗(yàn)室和商湯研究院提供了對(duì)BEV解決方案技術(shù)路線圖的深入回顧。然而,與現(xiàn)有的綜述不同,我們考慮了自動(dòng)駕駛安全感知等關(guān)鍵方面。在分析了基于相機(jī)解決方案的技術(shù)路線圖和當(dāng)前發(fā)展?fàn)顟B(tài)之后,我們打算基于`準(zhǔn)確性、延遲、穩(wěn)健性'的基本原則進(jìn)行討論。我們將整合安全感知的視角,以指導(dǎo)自動(dòng)駕駛中安全感知的實(shí)際實(shí)施。

  1. 準(zhǔn)確度:大多數(shù)研究文章和綜述中都非常關(guān)注準(zhǔn)確性,這確實(shí)非常重要。雖然準(zhǔn)確性可以通過(guò)AP(平均精度)來(lái)反映,但僅考慮AP可能無(wú)法提供全面的視角,因?yàn)椴煌姆椒ㄓ捎诓煌姆妒娇赡鼙憩F(xiàn)出顯著的差異。如圖所示,我們選擇了10種代表性方法進(jìn)行比較,結(jié)果表明單目3D物體檢測(cè)與立體視覺3D物體檢測(cè)之間存在顯著的度量差異。目前的情況表明,單目3D物體檢測(cè)的準(zhǔn)確性遠(yuǎn)低于立體視覺3D物體檢測(cè)。立體視覺3D物體檢測(cè)利用從同一場(chǎng)景的兩個(gè)不同視角捕獲的圖像來(lái)獲取深度信息。相機(jī)之間的基線越大,捕獲的深度信息范圍越廣。隨著時(shí)間的推移,多視角(鳥瞰視圖感知)3D物體檢測(cè)逐漸取代了單目方法,顯著提高了mAP。傳感器數(shù)量的增加對(duì)mAP產(chǎn)生了重大影響。
  2. 延遲:在自動(dòng)駕駛領(lǐng)域,延遲至關(guān)重要。它指的是系統(tǒng)對(duì)輸入信號(hào)做出反應(yīng)所需的時(shí)間,包括從傳感器數(shù)據(jù)采集到系統(tǒng)決策制定和執(zhí)行動(dòng)作的整個(gè)過(guò)程。在自動(dòng)駕駛中,對(duì)延遲的要求非常嚴(yán)格,因?yàn)槿魏涡问降难舆t都可能導(dǎo)致嚴(yán)重的后果。延遲在自動(dòng)駕駛中的重要性體現(xiàn)在以下幾個(gè)方面:實(shí)時(shí)響應(yīng)性、安全性、用戶體驗(yàn)、互動(dòng)性和緊急響應(yīng)。在3D物體檢測(cè)領(lǐng)域,延遲(每秒幀數(shù),F(xiàn)PS)和準(zhǔn)確性是評(píng)估算法性能的關(guān)鍵指標(biāo)。如圖所示,單目和立體視覺3D物體檢測(cè)的圖表顯示了KITTI數(shù)據(jù)集中等難度級(jí)別的平均精度(AP)與FPS的關(guān)系。對(duì)于自動(dòng)駕駛的實(shí)現(xiàn),3D物體檢測(cè)算法必須在延遲和準(zhǔn)確性之間取得平衡。雖然單目檢測(cè)速度快,但缺乏精確度;相反,立體和多視角方法準(zhǔn)確但速度較慢。未來(lái)的研究不僅應(yīng)保持高精度,還應(yīng)更加重視提高FPS和降低延遲,以滿足自動(dòng)駕駛中實(shí)時(shí)響應(yīng)性和安全性的雙重要求。
  3. 穩(wěn)健性:穩(wěn)健性是自動(dòng)駕駛安全感知的一個(gè)關(guān)鍵因素,代表了一個(gè)在綜合回顧中以前被忽視的重要話題。在當(dāng)前精心設(shè)計(jì)的干凈數(shù)據(jù)集和基準(zhǔn)測(cè)試中,如KITTI、nuScenes和Waymo,這一方面通常沒有得到解決。目前,像RoboBEV、Robo3D這樣的研究作品在3D物體檢測(cè)中納入了穩(wěn)健性的考慮,例如傳感器缺失等因素。它們采用了一種方法論,包括在與3D物體檢測(cè)相關(guān)的數(shù)據(jù)集中引入干擾,以評(píng)估穩(wěn)健性。這包括引入各種類型的噪聲,如天氣條件變化、傳感器故障、運(yùn)動(dòng)干擾和與物體相關(guān)的擾動(dòng),旨在揭示不同噪聲源對(duì)模型的不同影響。通常,大多數(shù)研究穩(wěn)健性的論文通過(guò)向干凈數(shù)據(jù)集的驗(yàn)證集(如KITTI、nuScenes和Waymo)引入噪聲進(jìn)行評(píng)估。另外,我們強(qiáng)調(diào)了參考文獻(xiàn)中的發(fā)現(xiàn),其中強(qiáng)調(diào)了KITTI-C和nuScenes-C作為相機(jī)僅3D物體檢測(cè)方法的例子。表格提供了總體比較,顯示總體上,相機(jī)僅方法的穩(wěn)健性低于激光雷達(dá)僅和多模型融合方法。它們非常容易受到各種類型的噪聲的影響。在KITTI-C中,三個(gè)代表性的作品——SMOKE、PGD和ImVoxelNet——顯示出一致較低的整體性能和對(duì)噪聲的減少穩(wěn)健性。在nuScenes-C中,值得注意的方法如DETR3D和BEVFormer與FCOS3D和PGD相比表現(xiàn)出更大的穩(wěn)健性,表明隨著傳感器數(shù)量的增加,整體穩(wěn)健性提高??傊磥?lái)的相機(jī)僅方法需要考慮不僅是成本因素和準(zhǔn)確性指標(biāo)(mAP、NDS等),還有與安全感知和穩(wěn)健性相關(guān)的因素。我們的分析旨在為未來(lái)自動(dòng)駕駛系統(tǒng)的安全提供有價(jià)值的見解。

3. 基于Lidar的3D目標(biāo)檢測(cè)

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

基于體素的3D物體檢測(cè)方法提出了將稀疏點(diǎn)云分割并分配到規(guī)則體素中,從而形成密集的數(shù)據(jù)表示,這個(gè)過(guò)程稱為體素化。與基于視圖的方法相比,基于體素的方法利用空間卷積有效感知3D空間信息,實(shí)現(xiàn)更高的檢測(cè)精度,這對(duì)自動(dòng)駕駛中的安全感知至關(guān)重要。然而,這些方法仍面臨以下挑戰(zhàn):

  1. 高計(jì)算復(fù)雜性:與基于相機(jī)的方法相比,基于體素的方法需要大量的內(nèi)存和計(jì)算資源,因?yàn)橛糜诒硎?D空間的體素?cái)?shù)量巨大。
  2. 空間信息丟失:由于體素的離散化特性,在體素化過(guò)程中細(xì)節(jié)和形狀信息可能丟失或模糊,同時(shí)體素有限的分辨率使得難以準(zhǔn)確檢測(cè)小物體。
  3. 尺度和密度不一致性:基于體素的方法通常需要在不同尺度和密度的體素網(wǎng)格上進(jìn)行檢測(cè),但由于不同場(chǎng)景中目標(biāo)的尺度和密度變化很大,選擇合適的尺度和密度來(lái)適應(yīng)不同目標(biāo)成為挑戰(zhàn)。

為了克服這些挑戰(zhàn),需要解決數(shù)據(jù)表示的局限性、提高網(wǎng)絡(luò)特征能力和目標(biāo)定位精度,并加強(qiáng)算法對(duì)復(fù)雜場(chǎng)景的理解。盡管優(yōu)化策略各不相同,但通常都旨在從數(shù)據(jù)表示和模型結(jié)構(gòu)方面進(jìn)行優(yōu)化。

3.1 Voxel-based 3D object detection

得益于PC在深度學(xué)習(xí)中的繁榮,基于點(diǎn)的三維對(duì)象檢測(cè)繼承了其許多框架,并提出在不進(jìn)行預(yù)處理的情況下直接從原始點(diǎn)檢測(cè)三維對(duì)象。與voxel-based方法相比,原始點(diǎn)云保留了最大量的原始信息,這有利于細(xì)粒度的特征獲取,result high accuracy。同時(shí),PointNet的一系列工作自然為基于點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)?;邳c(diǎn)的3D對(duì)象檢測(cè)器有兩個(gè)基本組成部分:點(diǎn)云采樣和特征學(xué)習(xí) %截至目前,Point-based方法的性能仍被兩個(gè)因素所影響:上下文點(diǎn)的數(shù)量和特征學(xué)習(xí)中采用的上下文半徑。e.g.增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)致的3D信息,但會(huì)顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以獲得同樣地效果。因此,為這兩個(gè)因素選擇合適的值,可以使模型在精度和速度之間達(dá)到一個(gè)平衡。此外,由于需要對(duì)點(diǎn)云中每一個(gè)點(diǎn)進(jìn)行計(jì)算,點(diǎn)云采樣過(guò)程是限制point-based方法實(shí)時(shí)運(yùn)行的主要因素。具體來(lái)說(shuō),為解決以上問題,現(xiàn)有的方法大多圍繞基于點(diǎn)的3D對(duì)象檢測(cè)器的兩個(gè)基本組成部分進(jìn)行優(yōu)化:1) Point Sampling 2) feature learning

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

3.2 Point-based 3D object detection

基于點(diǎn)的3D物體檢測(cè)方法繼承了許多深度學(xué)習(xí)框架,并提出直接從原始點(diǎn)云中檢測(cè)3D物體,而不進(jìn)行預(yù)處理。與基于體素的方法相比,原始點(diǎn)云最大限度地保留了原始信息,有利于細(xì)粒度特征的獲取,從而實(shí)現(xiàn)高精度。同時(shí),PointNet系列工作為基于點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)。然而,到目前為止,基于點(diǎn)的方法的性能仍受兩個(gè)因素的影響:上下文點(diǎn)的數(shù)量和特征學(xué)習(xí)中使用的上下文半徑。例如,增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)致的3D信息,但會(huì)顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以達(dá)到同樣的效果。因此,為這兩個(gè)因素選擇適當(dāng)?shù)闹悼梢允鼓P驮诰群退俣戎g實(shí)現(xiàn)平衡。此外,由于需要對(duì)點(diǎn)云中的每個(gè)點(diǎn)進(jìn)行計(jì)算,點(diǎn)云采樣過(guò)程是限制基于點(diǎn)方法實(shí)時(shí)運(yùn)行的主要因素。為解決這些問題,現(xiàn)有方法主要圍繞基于點(diǎn)的3D物體檢測(cè)器的兩個(gè)基本組成部分進(jìn)行優(yōu)化:1) 點(diǎn)云采樣;2) 特征學(xué)習(xí)。

最遠(yuǎn)點(diǎn)采樣(FPS)源自PointNet++,是一種在基于點(diǎn)的方法中廣泛使用的點(diǎn)云采樣方法。它的目標(biāo)是從原始點(diǎn)云中選擇一組具有代表性的點(diǎn),使它們之間的距離最大化,以最好地覆蓋整個(gè)點(diǎn)云的空間分布。PointRCNN是基于點(diǎn)的方法中的開創(chuàng)性的兩階段檢測(cè)器,使用PointNet++作為骨干網(wǎng)絡(luò)。在第一階段,它以自下而上的方式從點(diǎn)云中生成3D提議。在第二階段,通過(guò)結(jié)合語(yǔ)義特征和局部空間特征來(lái)對(duì)提議進(jìn)行精煉。然而,現(xiàn)有基于FPS的方法仍面臨一些問題:1) 與檢測(cè)無(wú)關(guān)的點(diǎn)同樣參與采樣過(guò)程,帶來(lái)額外的計(jì)算負(fù)擔(dān);2) 點(diǎn)在物體的不同部分分布不均勻,導(dǎo)致次優(yōu)的采樣策略。為了解決這些問題,后續(xù)工作采用了類似FPS的設(shè)計(jì)范式,并進(jìn)行了改進(jìn),例如,通過(guò)分割引導(dǎo)的背景點(diǎn)過(guò)濾、隨機(jī)采樣、特征空間采樣、基于體素的采樣和基于光線分組的采樣。

基于點(diǎn)的3D物體檢測(cè)方法的特征學(xué)習(xí)階段旨在從稀疏點(diǎn)云數(shù)據(jù)中提取具有判別性的特征表示。在特征學(xué)習(xí)階段使用的神經(jīng)網(wǎng)絡(luò)應(yīng)具備以下特性:1) 不變性,點(diǎn)云骨干網(wǎng)絡(luò)應(yīng)對(duì)輸入點(diǎn)云的排列順序不敏感;2) 具有局部感知能力,能夠?qū)植繀^(qū)域進(jìn)行感知和建模,提取局部特征;3) 具有整合上下文信息的能力,能夠從全局和局部的上下文信息中提取特征。基于上述特性,大量的檢測(cè)器被設(shè)計(jì)用于處理原始點(diǎn)云。大多數(shù)方法可以根據(jù)所使用的核心算子分為:1) 基于PointNet的方法;2) 基于圖神經(jīng)網(wǎng)絡(luò)的方法;3) 基于Transformer的方法。

基于PointNet的方法

基于PointNet的方法主要依賴集合抽象來(lái)對(duì)原始點(diǎn)進(jìn)行降采樣,聚合局部信息,并整合上下文信息,同時(shí)保持原始點(diǎn)的對(duì)稱不變性。Point-RCNN是基于點(diǎn)的方法中的第一個(gè)兩階段工作,取得了出色的性能,但仍面臨高計(jì)算成本的問題。后續(xù)工作通過(guò)在檢測(cè)過(guò)程中引入額外的語(yǔ)義分割任務(wù)來(lái)過(guò)濾掉對(duì)檢測(cè)貢獻(xiàn)最小的背景點(diǎn),解決了這個(gè)問題。

基于圖神經(jīng)網(wǎng)絡(luò)的方法

圖神經(jīng)網(wǎng)絡(luò)(GNN)具有自適應(yīng)結(jié)構(gòu)、動(dòng)態(tài)鄰域、構(gòu)建局部和全局上下文關(guān)系的能力以及對(duì)不規(guī)則采樣的魯棒性。Point-GNN是一項(xiàng)開創(chuàng)性的工作,設(shè)計(jì)了一個(gè)單階段圖神經(jīng)網(wǎng)絡(luò),通過(guò)自動(dòng)注冊(cè)機(jī)制、合并和評(píng)分操作來(lái)預(yù)測(cè)對(duì)象的類別和形狀,展示了使用圖神經(jīng)網(wǎng)絡(luò)作為3D物體檢測(cè)新方法的潛力。

基于Transformer的方法

近年來(lái),Transformer(Transformer)在點(diǎn)云分析中得到了探索,并在許多任務(wù)上表現(xiàn)出色。例如,Pointformer引入了局部和全局注意模塊來(lái)處理3D點(diǎn)云,局部Transformer模塊用于對(duì)局部區(qū)域中的點(diǎn)之間的交互進(jìn)行建模,而全局Transformer旨在學(xué)習(xí)場(chǎng)景級(jí)別的上下文感知表示。Group-free直接利用點(diǎn)云中的所有點(diǎn)來(lái)計(jì)算每個(gè)對(duì)象候選的特征,其中每個(gè)點(diǎn)的貢獻(xiàn)由自動(dòng)學(xué)習(xí)的注意模塊決定。這些方法展示了基于Transformer的方法在處理非結(jié)構(gòu)化和無(wú)序的原始點(diǎn)云方面的潛力。

3.3 ?Point-Voxel based 3D object detection

點(diǎn)云基礎(chǔ)的3D物體檢測(cè)方法提供高分辨率并保留了原始數(shù)據(jù)的空間結(jié)構(gòu),但它們?cè)谔幚硐∈钄?shù)據(jù)時(shí)面臨高計(jì)算復(fù)雜性和低效率。相比之下,基于體素的方法提供了結(jié)構(gòu)化的數(shù)據(jù)表示,提高了計(jì)算效率,并促進(jìn)了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用。然而,由于離散化過(guò)程,它們通常會(huì)丟失細(xì)微的空間細(xì)節(jié)。為了解決這些問題,開發(fā)了點(diǎn)-體素(PV)基礎(chǔ)的方法。點(diǎn)-體素方法旨在利用基于點(diǎn)的方法的細(xì)粒度信息捕獲能力和基于體素的方法的計(jì)算效率。通過(guò)整合這些方法,點(diǎn)-體素基礎(chǔ)的方法能夠更詳細(xì)地處理點(diǎn)云數(shù)據(jù),捕獲全局結(jié)構(gòu)和微觀幾何細(xì)節(jié)。這對(duì)于自動(dòng)駕駛中的安全感知至關(guān)重要,因?yàn)樽詣?dòng)駕駛系統(tǒng)的決策精度取決于高精度的檢測(cè)結(jié)果。

點(diǎn)-體素方法的關(guān)鍵目標(biāo)是通過(guò)點(diǎn)到體素或體素到點(diǎn)的轉(zhuǎn)換,實(shí)現(xiàn)體素和點(diǎn)之間的特征互動(dòng)。許多工作已經(jīng)探索了在骨干網(wǎng)絡(luò)中利用點(diǎn)-體素特征融合的思想。這些方法可分為兩類:1) 早期融合;2) 后期融合。

a)?早期融合:一些方法已經(jīng)探索了使用新的卷積運(yùn)算符來(lái)融合體素和點(diǎn)特征,PVCNN可能是這方向的首個(gè)工作。在這種方法中,基于體素的分支首先將點(diǎn)轉(zhuǎn)換為低分辨率的體素網(wǎng)格,并通過(guò)卷積聚合鄰近體素特征。然后,通過(guò)稱為去體素化的過(guò)程,將體素級(jí)特征轉(zhuǎn)換回點(diǎn)級(jí)特征,并與基于點(diǎn)的分支獲得的特征融合?;邳c(diǎn)的分支為每個(gè)單獨(dú)的點(diǎn)提取特征。由于它不聚合鄰近信息,該方法可以以更高的速度運(yùn)行。接著,SPVCNN在PVCNN的基礎(chǔ)上擴(kuò)展到物體檢測(cè)領(lǐng)域。其他方法試圖從不同的角度進(jìn)行改進(jìn),如輔助任務(wù)或多尺度特征融合。

b)?后期融合:這一系列方法主要采用兩階段檢測(cè)框架。首先,使用基于體素的方法生成初步的物體提議。接著,利用點(diǎn)級(jí)特征對(duì)檢測(cè)框進(jìn)行精確劃分。Shi等人提出的PV-RCNN是點(diǎn)-體素基礎(chǔ)方法中的一個(gè)里程碑。它使用SECOND作為第一階段檢測(cè)器,并提出了帶有RoI網(wǎng)格池的第二階段精煉階段,用于關(guān)鍵點(diǎn)特征的融合。后續(xù)工作主要遵循上述范式,專注于第二階段檢測(cè)的進(jìn)展。值得注意的發(fā)展包括注意力機(jī)制、尺度感知池化和點(diǎn)密度感知精煉模塊。

點(diǎn)-體素基礎(chǔ)的方法同時(shí)具有基于體素方法的計(jì)算效率和基于點(diǎn)方法捕獲細(xì)粒度信息的能力。然而,構(gòu)建點(diǎn)到體素或體素到點(diǎn)的關(guān)系,以及體素和點(diǎn)的特征融合,會(huì)帶來(lái)額外的計(jì)算開銷。因此,與基于體素的方法相比,點(diǎn)-體素基礎(chǔ)

的方法可以實(shí)現(xiàn)更好的檢測(cè)精度,但代價(jià)是增加了推理時(shí)間。

4.多模態(tài)3D目標(biāo)檢測(cè)

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

4.1 Projection-based 3D object detection

基于投影的3D物體檢測(cè)方法在特征融合階段使用投影矩陣來(lái)實(shí)現(xiàn)點(diǎn)云和圖像特征的整合。這里的關(guān)鍵是關(guān)注在特征融合期間的投影,而不是融合階段的其他投影過(guò)程,如數(shù)據(jù)增強(qiáng)等。根據(jù)融合階段使用的不同類型的投影,可以將投影基礎(chǔ)的3D物體檢測(cè)方法進(jìn)一步細(xì)分為以下幾類:

  1. 基于點(diǎn)投影的3D物體檢測(cè):這類方法通過(guò)將圖像特征投影到原始點(diǎn)云上來(lái)增強(qiáng)原始點(diǎn)云數(shù)據(jù)的表示能力。這些方法的第一步是使用校準(zhǔn)矩陣建立激光雷達(dá)點(diǎn)和圖像像素之間的強(qiáng)相關(guān)性。接下來(lái),通過(guò)添加額外數(shù)據(jù)來(lái)增強(qiáng)點(diǎn)云特征。這種增強(qiáng)有兩種形式:一種是通過(guò)合并分割分?jǐn)?shù)(如PointPainting),另一種是使用來(lái)自相關(guān)像素的CNN特征(如MVP)。PointPainting通過(guò)追加分割分?jǐn)?shù)來(lái)增強(qiáng)激光雷達(dá)點(diǎn),但在有效捕獲圖像中的顏色和紋理細(xì)節(jié)方面存在局限性。為解決這些問題,開發(fā)了更復(fù)雜的方法,如FusionPainting。
  2. 基于特征投影的3D物體檢測(cè):與基于點(diǎn)投影的方法不同,這類方法主要關(guān)注在點(diǎn)云特征提取階段將點(diǎn)云特征與圖像特征融合。在這個(gè)過(guò)程中,通過(guò)應(yīng)用校準(zhǔn)矩陣將體素的三維坐標(biāo)系統(tǒng)轉(zhuǎn)換為圖像的像素坐標(biāo)系統(tǒng),從而有效地融合點(diǎn)云和圖像模態(tài)。例如,ContFuse通過(guò)連續(xù)卷積融合多尺度卷積特征圖。
  3. 自動(dòng)投影基礎(chǔ)的3D物體檢測(cè):許多研究通過(guò)直接投影進(jìn)行融合,但沒有解決投影誤差問題。一些工作(如AutoAlignV2)通過(guò)學(xué)習(xí)偏移量和鄰域投影等方法來(lái)減輕這些誤差。例如,HMFI、GraphAlign和GraphAlign++利用投影校準(zhǔn)矩陣的先驗(yàn)知識(shí)進(jìn)行圖像投影,并進(jìn)行局部圖建模。
  4. 基于決策投影的3D物體檢測(cè):這類方法使用投影矩陣來(lái)對(duì)齊感興趣區(qū)域(RoI)或特定結(jié)果中的特征。例如,Graph-RCNN將圖節(jié)點(diǎn)投影到攝像機(jī)圖像中的位置,并通過(guò)雙線性插值收集攝像機(jī)圖像中該像素的特征向量。F-PointNet通過(guò)2D圖像檢測(cè)來(lái)確定物體的類別和定位,并通過(guò)校準(zhǔn)的傳感器參數(shù)和3D空間的轉(zhuǎn)換矩陣獲得相應(yīng)3D空間中的點(diǎn)云。

這些方法展示了如何在多模態(tài)3D物體檢測(cè)中使用投影技術(shù)來(lái)實(shí)現(xiàn)特征融合,但它們?cè)谔幚聿煌B(tài)間的交互和準(zhǔn)確性方面仍存在一定的局限性。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

4.2 Non-Projection-based 3D object detection

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

非投影式三維物體檢測(cè)方法通過(guò)不依賴特征對(duì)齊來(lái)實(shí)現(xiàn)融合,從而產(chǎn)生穩(wěn)健的特征表示。它們規(guī)避了相機(jī)到激光雷達(dá)投影的局限性,這種投影通常會(huì)降低相機(jī)特征的語(yǔ)義密度,并影響如Focals Conv和PointPainting等技術(shù)的有效性。非投影式方法通常采用交叉注意力機(jī)制或構(gòu)建統(tǒng)一空間來(lái)解決直接特征投影中的固有不對(duì)齊問題。這些方法主要分為兩類:(1)基于query學(xué)習(xí)的方法和(2)基于統(tǒng)一特征的方法。基于query學(xué)習(xí)的方法完全避免了融合過(guò)程中的對(duì)齊需求。相反,基于統(tǒng)一特征的方法雖然構(gòu)建了統(tǒng)一的特征空間,但并沒有完全避免投影;它通常發(fā)生在單一模態(tài)背景下。例如,BEVFusion利用LSS進(jìn)行相機(jī)到BEV的投影。這個(gè)過(guò)程發(fā)生在融合之前,在特征不對(duì)齊的場(chǎng)景中顯示出相當(dāng)?shù)聂敯粜浴?/p>

  1. 基于query學(xué)習(xí)的三維物體檢測(cè):基于query學(xué)習(xí)的三維物體檢測(cè)方法,如Transfusion、DeepFusion、DeepInteraction、autoalign、CAT-Det、MixedFusion等,避免了特征融合過(guò)程中的投影需求。相反,它們通過(guò)交叉注意力機(jī)制在進(jìn)行特征融合之前實(shí)現(xiàn)特征對(duì)齊。點(diǎn)云特征通常作為query,而圖像特征作為鍵和值,通過(guò)全局特征query獲得高度魯棒的多模態(tài)特征。此外,DeepInteraction引入了多模態(tài)交互,其中點(diǎn)云和圖像特征作為不同的query來(lái)實(shí)現(xiàn)更進(jìn)一步的特征交互。與僅使用點(diǎn)云特征作為query相比,全面整合圖像特征導(dǎo)致了更強(qiáng)韌的多模態(tài)特征的獲得??偟膩?lái)說(shuō),基于query學(xué)習(xí)的三維物體檢測(cè)方法采用基于Transformer的結(jié)構(gòu)進(jìn)行特征query以實(shí)現(xiàn)特征對(duì)齊。最終,多模態(tài)特征被整合進(jìn)激光雷達(dá)基礎(chǔ)的流程中,如CenterPoint。
  2. 基于統(tǒng)一特征的三維物體檢測(cè):基于統(tǒng)一特征的三維物體檢測(cè)方法,如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、sfd、cmt、UVTR、sparsefusion等,通常在特征融合前通過(guò)投影實(shí)現(xiàn)異構(gòu)模態(tài)的預(yù)融合統(tǒng)一。在BEV融合系列中,使用LSS進(jìn)行深度估計(jì),前視特征被轉(zhuǎn)換為BEV特征,然后融合BEV圖像和BEV點(diǎn)云特征。另一方面,CMT和UniTR使用Transformer進(jìn)行點(diǎn)云和圖像的標(biāo)記化,通過(guò)Transformer編碼構(gòu)建隱式統(tǒng)一空間。CMT在位置編碼過(guò)程中使用投影,但在特征學(xué)習(xí)級(jí)別完全避免了對(duì)投影關(guān)系的依賴。FocalFormer3D、FUTR3D和UVTR利用Transformer的query實(shí)施類似于DETR3D的方案,通過(guò)query構(gòu)建統(tǒng)一的稀疏BEV特征空間,從而減輕了直接投影帶來(lái)的不穩(wěn)定性。

VirConv、MSMDFusion和SFD通過(guò)偽點(diǎn)云構(gòu)建統(tǒng)一空間,在特征學(xué)習(xí)之前發(fā)生投影。通過(guò)后續(xù)特征學(xué)習(xí)解決了直接投影引入的問題??傊?,基于統(tǒng)一特征的三維物體檢測(cè)方法目前代表了高精度和強(qiáng)魯棒性的解決方案。盡管它們包含投影矩陣,但這種投影不發(fā)生在多模態(tài)融合之間,因此被視為非投影式三維物體檢測(cè)方法。與自動(dòng)投影式三維物體檢測(cè)方法不同,它們不直接解決投影誤差問題,而是選擇構(gòu)建統(tǒng)一空間,考慮多模態(tài)三維物體檢測(cè)的多個(gè)維度,從而獲得高度魯棒的多模態(tài)特征。

5. 結(jié)論

3D物體檢測(cè)在自動(dòng)駕駛感知中扮演著至關(guān)重要的角色。近年來(lái),這個(gè)領(lǐng)域快速發(fā)展,產(chǎn)生了大量的研究論文。基于傳感器產(chǎn)生的多樣化數(shù)據(jù)形式,這些方法主要分為三種類型:基于圖像的、基于點(diǎn)云的和多模態(tài)的。這些方法的主要評(píng)估指標(biāo)是高準(zhǔn)確性和低延遲。許多綜述總結(jié)了這些方法,主要關(guān)注于`高準(zhǔn)確性和低延遲'的核心原則,描述它們的技術(shù)軌跡。

然而,在自動(dòng)駕駛技術(shù)從突破轉(zhuǎn)向?qū)嶋H應(yīng)用的過(guò)程中,現(xiàn)有的綜述沒有將安全感知作為核心關(guān)注點(diǎn),未能涵蓋與安全感知相關(guān)的當(dāng)前技術(shù)路徑。例如,最近的多模態(tài)融合方法在實(shí)驗(yàn)階段通常會(huì)進(jìn)行魯棒性測(cè)試,這一方面在當(dāng)前的綜述中并未得到充分考慮。

因此,重新審視3D物體檢測(cè)算法,以`準(zhǔn)確性、延遲和魯棒性'為關(guān)鍵方面進(jìn)行重點(diǎn)關(guān)注。我們重新分類以前的綜述,特別強(qiáng)調(diào)從安全感知的角度進(jìn)行重新劃分。希望這項(xiàng)工作能為未來(lái)3D物體檢測(cè)的研究提供新的見解,超越僅僅探索高準(zhǔn)確性的局限。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測(cè)?最新綜述!

以上是選擇相機(jī)還是激光雷達(dá)?實(shí)現(xiàn)魯棒的三維目標(biāo)檢測(cè)的最新綜述的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
為何在自動(dòng)駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? 為何在自動(dòng)駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? Jan 17, 2024 pm 02:57 PM

寫在前面&筆者的個(gè)人理解三維Gaussiansplatting(3DGS)是近年來(lái)在顯式輻射場(chǎng)和計(jì)算機(jī)圖形學(xué)領(lǐng)域出現(xiàn)的一種變革性技術(shù)。這種創(chuàng)新方法的特點(diǎn)是使用了數(shù)百萬(wàn)個(gè)3D高斯,這與神經(jīng)輻射場(chǎng)(NeRF)方法有很大的不同,后者主要使用隱式的基于坐標(biāo)的模型將空間坐標(biāo)映射到像素值。3DGS憑借其明確的場(chǎng)景表示和可微分的渲染算法,不僅保證了實(shí)時(shí)渲染能力,而且引入了前所未有的控制和場(chǎng)景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在游戲規(guī)則改變者。為此我們首次系統(tǒng)地概述了3DGS領(lǐng)域的最新發(fā)展和關(guān)

自動(dòng)駕駛場(chǎng)景中的長(zhǎng)尾問題怎么解決? 自動(dòng)駕駛場(chǎng)景中的長(zhǎng)尾問題怎么解決? Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過(guò)長(zhǎng)尾相關(guān)的問題,所以就想著簡(jiǎn)單總結(jié)一下。自動(dòng)駕駛長(zhǎng)尾問題是指自動(dòng)駕駛汽車中的邊緣情況,即發(fā)生概率較低的可能場(chǎng)景。感知的長(zhǎng)尾問題是當(dāng)前限制單車智能自動(dòng)駕駛車輛運(yùn)行設(shè)計(jì)域的主要原因之一。自動(dòng)駕駛的底層架構(gòu)和大部分技術(shù)問題已經(jīng)被解決,剩下的5%的長(zhǎng)尾問題,逐漸成了制約自動(dòng)駕駛發(fā)展的關(guān)鍵。這些問題包括各種零碎的場(chǎng)景、極端的情況和無(wú)法預(yù)測(cè)的人類行為。自動(dòng)駕駛中的邊緣場(chǎng)景"長(zhǎng)尾"是指自動(dòng)駕駛汽車(AV)中的邊緣情況,邊緣情況是發(fā)生概率較低的可能場(chǎng)景。這些罕見的事件

SIMPL:用于自動(dòng)駕駛的簡(jiǎn)單高效的多智能體運(yùn)動(dòng)預(yù)測(cè)基準(zhǔn) SIMPL:用于自動(dòng)駕駛的簡(jiǎn)單高效的多智能體運(yùn)動(dòng)預(yù)測(cè)基準(zhǔn) Feb 20, 2024 am 11:48 AM

原標(biāo)題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文鏈接:https://arxiv.org/pdf/2402.02519.pdf代碼鏈接:https://github.com/HKUST-Aerial-Robotics/SIMPL作者單位:香港科技大學(xué)大疆論文思路:本文提出了一種用于自動(dòng)駕駛車輛的簡(jiǎn)單高效的運(yùn)動(dòng)預(yù)測(cè)基線(SIMPL)。與傳統(tǒng)的以代理為中心(agent-cent

Sparse4D v3來(lái)了!推進(jìn)端到端3D檢測(cè)和跟蹤 Sparse4D v3來(lái)了!推進(jìn)端到端3D檢測(cè)和跟蹤 Nov 24, 2023 am 11:21 AM

新標(biāo)題:Sparse4Dv3:推進(jìn)端到端的3D檢測(cè)和跟蹤技術(shù)論文鏈接:https://arxiv.org/pdf/2311.11722.pdf需要重新寫的內(nèi)容是:代碼鏈接:https://github.com/linxuewu/Sparse4D重新寫的內(nèi)容:作者所屬單位為地平線公司論文思路:在自動(dòng)駕駛感知系統(tǒng)中,3D檢測(cè)和跟蹤是兩項(xiàng)基本任務(wù)。本文基于Sparse4D框架更深入地研究了該領(lǐng)域。本文引入了兩個(gè)輔助訓(xùn)練任務(wù)(時(shí)序?qū)嵗ピ?TemporalInstanceDenoising和質(zhì)量估計(jì)-Q

選擇相機(jī)還是激光雷達(dá)?實(shí)現(xiàn)魯棒的三維目標(biāo)檢測(cè)的最新綜述 選擇相機(jī)還是激光雷達(dá)?實(shí)現(xiàn)魯棒的三維目標(biāo)檢測(cè)的最新綜述 Jan 26, 2024 am 11:18 AM

0.寫在前面&&個(gè)人理解自動(dòng)駕駛系統(tǒng)依賴于先進(jìn)的感知、決策和控制技術(shù),通過(guò)使用各種傳感器(如相機(jī)、激光雷達(dá)、雷達(dá)等)來(lái)感知周圍環(huán)境,并利用算法和模型進(jìn)行實(shí)時(shí)分析和決策。這使得車輛能夠識(shí)別道路標(biāo)志、檢測(cè)和跟蹤其他車輛、預(yù)測(cè)行人行為等,從而安全地操作和適應(yīng)復(fù)雜的交通環(huán)境.這項(xiàng)技術(shù)目前引起了廣泛的關(guān)注,并認(rèn)為是未來(lái)交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動(dòng)駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動(dòng)駕駛系統(tǒng)中的三維物體檢測(cè)算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能 CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能 Mar 26, 2024 pm 12:41 PM

寫在前面&筆者的個(gè)人理解目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模塊扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車輛只有通過(guò)感知模塊獲得到準(zhǔn)確的感知結(jié)果后,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模塊做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車中通常會(huì)配備包括環(huán)視相機(jī)傳感器、激光雷達(dá)傳感器以及毫米波雷達(dá)傳感器在內(nèi)的多種數(shù)據(jù)信息傳感器來(lái)收集不同模態(tài)的信息,用于實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)?;诩円曈X的BEV感知算法因其較低的硬件成本和易于部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用于各種下游任務(wù),因此受到工業(yè)

自動(dòng)駕駛與軌跡預(yù)測(cè)看這一篇就夠了! 自動(dòng)駕駛與軌跡預(yù)測(cè)看這一篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預(yù)測(cè)在自動(dòng)駕駛中承擔(dān)著重要的角色,自動(dòng)駕駛軌跡預(yù)測(cè)是指通過(guò)分析車輛行駛過(guò)程中的各種數(shù)據(jù),預(yù)測(cè)車輛未來(lái)的行駛軌跡。作為自動(dòng)駕駛的核心模塊,軌跡預(yù)測(cè)的質(zhì)量對(duì)于下游的規(guī)劃控制至關(guān)重要。軌跡預(yù)測(cè)任務(wù)技術(shù)棧豐富,需要熟悉自動(dòng)駕駛動(dòng)/靜態(tài)感知、高精地圖、車道線、神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN&GNN&Transformer)技能等,入門難度很大!很多粉絲期望能夠盡快上手軌跡預(yù)測(cè),少踩坑,今天就為大家盤點(diǎn)下軌跡預(yù)測(cè)常見的一些問題和入門學(xué)習(xí)方法!入門相關(guān)知識(shí)1.預(yù)習(xí)的論文有沒有切入順序?A:先看survey,p

FisheyeDetNet:首個(gè)基于魚眼相機(jī)的目標(biāo)檢測(cè)算法 FisheyeDetNet:首個(gè)基于魚眼相機(jī)的目標(biāo)檢測(cè)算法 Apr 26, 2024 am 11:37 AM

目標(biāo)檢測(cè)在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問題,其中行人檢測(cè)是最早得以部署算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚眼相機(jī)進(jìn)行環(huán)視的距離感知相對(duì)來(lái)說(shuō)研究較少。由于徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極坐標(biāo)/角度表示,并定義一個(gè)實(shí)例分割mIOU度量來(lái)分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)于其他模型,并同時(shí)在用于自動(dòng)駕駛的Valeo魚眼相機(jī)數(shù)據(jù)集上實(shí)現(xiàn)了49.5%的mAP

See all articles