国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
任務(wù)背景
論文思路
主要貢獻
模型設(shè)計
Far3D 流程概覽:
Perspective-aware Aggregation:
Range-modulated 3D Denoising:
實驗結(jié)果
論文思考
首頁 科技週邊 人工智慧 AAAI2024:Far3D - 創(chuàng)新的直接幹到150m視覺3D目標偵測思路

AAAI2024:Far3D - 創(chuàng)新的直接幹到150m視覺3D目標偵測思路

Dec 15, 2023 pm 01:54 PM
視覺 偵測

最近在 Arxiv 上閱讀到一篇關(guān)于純視覺環(huán)視感知的最新研究,該研究基于 PETR 系列方法,并專注于解決遠距離目標檢測的純視覺感知問題,將感知范圍擴大到150米。這篇論文的方法和結(jié)果對我們來說有很大的參考價值,所以我嘗試著對其進行解讀

原標題:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文鏈接:https://arxiv.org/abs/2308.09616
作者單位:北京理工大學 & 曠視科技

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

任務(wù)背景

三維物體檢測在理解自動駕駛的三維場景方面發(fā)揮著重要作用,其目的是對自車周圍的物體進行精確定位和分類。純視覺環(huán)視感知方法具有成本低、適用性廣等優(yōu)點,已取得顯著進展。然而,它們大多側(cè)重于近距離感知(例如,nuScenes的感知距離約為 50 米),對遠距離探測領(lǐng)域的探索較少。檢測遠距離物體對于實際駕駛中保持安全距離至關(guān)重要,尤其是在高速或復(fù)雜路況下。

近來,從環(huán)視圖像中進行三維物體檢測取得了顯著進展,其部署成本較低。然而,大多數(shù)研究主要集中在近距離感知范圍,對遠距離檢測的研究較少。將現(xiàn)有方法直接擴展到覆蓋長距離會面臨計算成本高、收斂性不穩(wěn)定等挑戰(zhàn)。為了解決這些局限性,本文提出了一種新的基于稀疏查詢的框架,稱為 Far3D。

論文思路

根據(jù)中間表征,現(xiàn)有的環(huán)視感知方法可以大致分為兩類:基于BEV表征和基于稀疏查詢表征的方法。基于BEV表征的方法由于需要計算密集的BEV特征,計算量非常大,難以擴展到遠距離場景。而基于稀疏查詢表征的方法會從訓(xùn)練數(shù)據(jù)中學習到全局的3D查詢,計算量相對較小,且具有較強的擴展性。然而,它也存在一些弱點,盡管可以避免查詢數(shù)量的平方增長,但全局固定查詢不易適應(yīng)動態(tài)場景,在遠距離檢測中通常會遺漏目標

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

圖1:Argoverse 2 數(shù)據(jù)集上,3D 檢測和 2D 檢測的性能對比。

在遠距離檢測中,基于稀疏 query 表征的方法有兩個主要挑戰(zhàn)。

  1. 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠距離范圍只能產(chǎn)生少量匹配的 positive query。如上圖所示,3D 檢測的召回率較低,而現(xiàn)有 2D 檢測的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質(zhì)量的 2D 物體先驗來改進 3D query 是一種很有潛力的方法,它有利于實現(xiàn)物體的精確定位和全面覆蓋。
  2. 其次,直接引入 2D 檢測結(jié)果來幫助 3D 檢測會面臨誤差傳播的問題。如下圖所示,兩種主要來源是 1) 由于深度預(yù)測不準的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會增大。這些 noisy query 會影響訓(xùn)練的穩(wěn)定性,需要有效的去噪方法來優(yōu)化。此外,在訓(xùn)練過程中,模型會表現(xiàn)出對密集的近距離物體過度擬合的傾向,而忽略稀疏分布的遠距離物體。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

為了應(yīng)對以上提到的問題,本文采取了以下設(shè)計方案:

  1. 除了從資料集中學到的 3D global query 外,還引入了由 2D 偵測結(jié)果產(chǎn)生的 3D adaptive query。具體地,首先利用 2D 偵測器和深度預(yù)測網(wǎng)路得到 2D 框和對應(yīng)深度,再透過空間變換投射到 3D 空間,作為 3D adaptive query 的初始化。
  2. 為了適應(yīng)不同距離的物體的尺度不同,設(shè)計了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特徵交互,有利於不同距離物體的特徵捕捉。例如,遠處物體需要大解析度的特徵,而近處則不同。模型透過這種設(shè)計可以自適應(yīng)地與特徵互動。
  3. 設(shè)計了一種稱為 Range-modulated 3D Denoising 的策略,以減輕 query 錯誤傳播和收斂緩慢的問題??紤]到不同距離的 query 回歸難度不同,noisy query 根據(jù)真實框的距離和尺度來調(diào)整。將 GT 附近的多組 noisy query 輸入解碼器,分別實現(xiàn)重建3D 真實框(對於正樣本)和捨棄負樣本的作用。

主要貢獻

  1. 本文提出了一種新的基於稀疏query 的檢測框架,它利用高品質(zhì)的2D object prior 來生成3D adaptive query, 從而擴大三維偵測的感知範圍。
  2. 本文設(shè)計了 Perspective-aware Aggregation 模組,它從不同尺度和視角聚合視覺特徵,以及一個基於目標距離的 3D Denoising 策略,來解決 query 誤差傳播和框架收斂問題。
  3. 在遠距離的 Argoverse 2 資料集的實驗結(jié)果表明,F(xiàn)ar3D 超越了先前的環(huán)視方法,並優(yōu)於幾種基於雷射雷達的方法。並且在 nuScenes 資料集上驗證了其通用性。

模型設(shè)計

Far3D 流程概覽:

  1. 將環(huán)視圖像輸入主幹網(wǎng)路和FPN層,編碼得到2D 影像特徵,並與相機參數(shù)進行編碼。
  2. 利用 2D 偵測器和深度預(yù)測網(wǎng)絡(luò),產(chǎn)生可靠的 2D 物件框及其相應(yīng)深度,然後透過相機變換投影到 3D 空間。
  3. 產(chǎn)生的3D adaptive query 與初始的 3D global query 結(jié)合,由解碼器層迭代回歸,以預(yù)測 3D 物件框。更進一步,該模型可透過長時序的 query 傳播實現(xiàn)時序建模。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

Perspective-aware Aggregation:

為了給遠距離偵測模型引入多尺度特徵,本文應(yīng)用了3D spatial deformable attention。它先在 query 對應(yīng)的 3D 位置附近進行偏移取樣,而後透過 3D-2D 視圖變換聚合影像特徵。這種方法取代 PETR 系列中的 global attention 的優(yōu)點在於,計算量可以大幅降低。具體地,對於 3D 空間中的每個 query 的參考點,模型會學習其周圍的 M 個取樣偏移,並將這些偏移點投影到不同的 2D 視圖特徵中。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

其後,3D query 與投影得到的取樣特徵互動。透過這種方式,來自不同視角和尺度的各種特徵將透過考慮其相對重要性而匯聚到三維查詢中。

Range-modulated 3D Denoising:

不同距離的3D query 具有不同的回歸難度,這不同於現(xiàn)有的2D Denoising 方法(如DN-DETR,通常同等對待的2D query)。難度差異來自於 query 匹配密度和誤差傳播。一方面,與遠處物體相對應(yīng)的 query 匹配度低於近處物體。另一方面,在 3D adaptive query 中引入二維先驗時,2D 物體框的微小誤差會被放大,更不用說這種影響會隨著物體距離的增加而增加。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應(yīng)被視為 negative query。本文提出一種 3D Denoising 方法,旨在優(yōu)化那些正樣本,並直接捨棄負樣本。

具體而言,作者透過同時添加正樣本和負樣本組來建立基於 GT 的嘈雜查詢。對於這兩種類型,都會根據(jù)物體的位置和大小應(yīng)用隨機噪聲,以促進遠距離感知中的去噪學習。具體來說,正樣本是在3D框內(nèi)的隨機點,而負樣本則在GT上施加更大的偏移,偏移範圍隨著物體的距離而變化。這種方法可以在訓(xùn)練過程中模擬有雜訊的候選正樣本和誤報樣本

實驗結(jié)果

Far3D 在150m 感知範圍的Argoverse 2 上取得了最高的性能。而模型 scale up 之後,可以達到幾個 Lidar-based 方法的性能,展現(xiàn)了純視覺方法的潛力。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

為了驗證泛化效能,作者也在 nuScenes 資料集上做了實驗,顯示在驗證集和測試集上都達到 SoTA 效能。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

經(jīng)過消融實驗,我們得出了以下結(jié)論:3D自適應(yīng)查詢、透視感知聚合和範圍調(diào)節(jié)的3D降噪各自都具有一定的增益

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

論文思考

Q:這篇文章有什麼novelty?
A:主要novelty 是解決遠距離場景的感知問題。現(xiàn)有方法拓展到遠距離場景有許多問題,計算成本和收斂困難等。本文作者為這個任務(wù)提出了一個高效率的架構(gòu)。儘管單拎出來各個模組似曾相識,它們都是服務(wù)於遠處目標的檢測的,目標明確。

Q:比起 BevFormer v2, MV2D 有什麼差別?
A: MV2D 主要是依賴2D anchor 去取對應(yīng)的特徵對3D 進行了綁定,但是沒有顯式的深度估計,所以對於遠距離物體來說不確定性就會比較大,然後難收斂; BevFormer v2 主要解決的是2D backbone與3D 任務(wù)場景之間的domain gap,一般2D 辨識任務(wù)上預(yù)訓(xùn)練的backbone 察覺3D 場景的能力存在不足,並沒有探索遠距離任務(wù)中的問題。

Q: 時序上能否改進,如 query propagation 再加上 feature propagation?
A: 理論上是可行的,但是實際應(yīng)用上應(yīng)該考慮performance-efficiency tradeoff。

Q: 還有哪些需要改進的地方?
A: 在長尾問題和遠距離評測指標上都值得改進。在 Argoverse 2 這樣的 26 類目標上,模型在長尾類別上表現(xiàn)不佳,最終也會降低平均精度,這一點尚未被探索。另一方面,使用統(tǒng)一的指標來評估遠距離和近距離物體可能並不合適,這就強調(diào)了對實用的動態(tài)評估標準的需求,以適應(yīng)現(xiàn)實世界的不同場景。

AAAI2024:Far3D - 創(chuàng)新的直接干到150m視覺3D目標檢測思路

原文連結(jié):https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg

以上是AAAI2024:Far3D - 創(chuàng)新的直接幹到150m視覺3D目標偵測思路的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔相應(yīng)的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
i7-7700無法升級至Windows 11的解決方案 i7-7700無法升級至Windows 11的解決方案 Dec 26, 2023 pm 06:52 PM

i77700的效能運行win11完全足夠,但是用戶卻發(fā)現(xiàn)自己的i77700不能升級win11,這主要是受到了微軟硬性條件的限制,所以只要跳過該限制就能安裝了。 i77700不能升級win11:1、因為微軟限制了cpu的版本。 2.intel只有第八代以上版本可以直升win11。3、而i77700作為7代,無法滿足win11的升級需求。 4.但是i77700在性能上是完全能流暢使用win11的。 5.所以大家可以使用本站的win11直裝系統(tǒng)。 6.下載完成後,右鍵「裝載」該檔案。 7.再雙擊運行其中的「一鍵

摔倒偵測,基於骨骼點人體動作識別,部分代碼用 Chatgpt 完成 摔倒偵測,基於骨骼點人體動作識別,部分代碼用 Chatgpt 完成 Apr 12, 2023 am 08:19 AM

哈嘍,大家好。今天就跟大家分享一個摔倒偵測項目,確切地說是基於骨骼點的人體動作辨識。大概分為三個步驟辨識人體辨識人體骨骼點動作分類項目源碼已經(jīng)打包好了,取得方式見文末。 0. chatgpt首先,我們需要取得監(jiān)控的視訊串流。這段程式碼比較固定,我們可以直接讓chatgpt完成chatgpt寫的這段程式碼是沒有問題的,可以直接使用。但後面涉及業(yè)務(wù)型任務(wù),例如:用mediapipe識別人體骨骼點,chatgpt給的代碼是不對的。我覺得chatgpt可以當作一個工具箱,能獨立於業(yè)務(wù)邏輯,都可以試著交給c

超越ORB-SLAM3! SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 超越ORB-SLAM3! SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 May 30, 2024 am 09:35 AM

寫在前面今天我們探討下深度學習技術(shù)如何改善在複雜環(huán)境中基於視覺的SLAM(同時定位與地圖建構(gòu))表現(xiàn)。透過將深度特徵提取和深度匹配方法相結(jié)合,這裡介紹了一種多功能的混合視覺SLAM系統(tǒng),旨在提高在諸如低光條件、動態(tài)光照、弱紋理區(qū)域和嚴重抖動等挑戰(zhàn)性場景中的適應(yīng)性。我們的系統(tǒng)支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結(jié)合,以啟發(fā)其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優(yōu)

NeRF是什麼?基於NeRF的三維重建是基於體素嗎? NeRF是什麼?基於NeRF的三維重建是基於體素嗎? Oct 16, 2023 am 11:33 AM

1介紹神經(jīng)輻射場(NeRF)是深度學習和電腦視覺領(lǐng)域的一個相當新的範式。 ECCV2020論文《NeRF:將場景表示為視圖合成的神經(jīng)輻射場》(該論文獲得了最佳論文獎)中介紹了這項技術(shù),該技術(shù)自此大受歡迎,迄今已獲得近800次引用[1 ]。此方法標誌著機器學習處理3D資料的傳統(tǒng)方式發(fā)生了巨大變化。神經(jīng)輻射場場景表示和可微分渲染過程:透過沿著相機射線採樣5D座標(位置和觀看方向)來合成影像;將這些位置輸入MLP以產(chǎn)生顏色和體積密度;並使用體積渲染技術(shù)將這些值合成影像;此渲染函數(shù)是可微分的,因此可以透過

MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 Jun 08, 2024 pm 06:09 PM

今天要為大家介紹一篇MIT上週發(fā)表的文章,使用GPT-3.5-turbo解決時間序列異常檢測問題,初步驗證了LLM在時間序列異常檢測的有效性。整個過程沒有進行finetune,直接使用GPT-3.5-turbo進行異常檢測,文中的核心是如何將時間序列轉(zhuǎn)換成GPT-3.5-turbo可辨識的輸入,以及如何設(shè)計prompt或pipeline讓LLM解決異常檢測任務(wù)。下面跟大家詳細介紹一下這篇工作。圖片論文標題:Largelanguagemodelscanbezero-shotanomalydete

3D視覺繞不開的點雲(yún)配準!一文搞懂所有主流方案與挑戰(zhàn) 3D視覺繞不開的點雲(yún)配準!一文搞懂所有主流方案與挑戰(zhàn) Apr 02, 2024 am 11:31 AM

作為點集合的點雲(yún)有望透過3D重建、工業(yè)檢測和機器人操作中,在獲取和生成物體的三維(3D)表面資訊方面帶來一場改變。最具挑戰(zhàn)性但必不可少的過程是點雲(yún)配準,即獲得一個空間變換,該變換將在兩個不同座標中獲得的兩個點雲(yún)對齊並匹配。這篇綜述介紹了點雲(yún)配準的概述和基本原理,對各種方法進行了系統(tǒng)的分類和比較,並解決了點雲(yún)配準中存在的技術(shù)問題,試圖為該領(lǐng)域以外的學術(shù)研究人員和工程師提供指導(dǎo),並促進點雲(yún)配準統(tǒng)一願景的討論。點雲(yún)獲取的一般方式分為主動和被動方式,由感測器主動獲取的點雲(yún)為主動方式,後期透過重建的方式

自動駕駛第一性之純視覺靜態(tài)重建 自動駕駛第一性之純視覺靜態(tài)重建 Jun 02, 2024 pm 03:24 PM

純視覺的標註方案,主要利用視覺加上一些GPS、IMU和輪速感測器的資料進行動態(tài)標註。當然面向量產(chǎn)場景的話,不一定要純視覺,有些量產(chǎn)的車輛裡面,會有像固態(tài)雷達(AT128)這樣的感測器。如果從量產(chǎn)的角度做資料閉環(huán),把這些感測器都用上,可以有效解決動態(tài)物體的標註問題。但是我們的方案裡面,是沒有固態(tài)雷達的。所以,我們就介紹這個最通用的量產(chǎn)標註方案。純視覺的標註方案的核心在於高精度的pose重建。我們採用StructurefromMotion(SFM)的pose重建方案,來確保重建精確度。但是傳

一覽Occ與自動駕駛的前世今生!首篇綜述全面總結(jié)特徵增強/量產(chǎn)部署/高效標註三大主題 一覽Occ與自動駕駛的前世今生!首篇綜述全面總結(jié)特徵增強/量產(chǎn)部署/高效標註三大主題 May 08, 2024 am 11:40 AM

寫在前面&筆者的個人理解近年來,自動駕駛因其在減輕駕駛員負擔和提高駕駛安全方面的潛力而越來越受到關(guān)注?;兑曈X的三維佔用預(yù)測是一種新興的感知任務(wù),適用於具有成本效益且對自動駕駛安全全面調(diào)查的任務(wù)。儘管許多研究已經(jīng)證明,與基於物體為中心的感知任務(wù)相比,3D佔用預(yù)測工具具有更大的優(yōu)勢,但仍存在專門針對這一快速發(fā)展領(lǐng)域的綜述。本文首先介紹了基於視覺的3D佔用預(yù)測的背景,並討論了這項任務(wù)中遇到的挑戰(zhàn)。接下來,我們從特徵增強、部署友善性和標籤效率三個面向全面探討了目前3D佔用預(yù)測方法的現(xiàn)況和發(fā)展趨勢。最後

See all articles