国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
寫在前面&筆者的個(gè)人理解
網(wǎng)路模型的整體架構(gòu)&細(xì)節(jié)梳理
真值BEV的生成
真值目標(biāo)查詢交互
實(shí)驗(yàn)結(jié)果&評(píng)估指標(biāo)
定量分析部分
定性分析部分
結(jié)論
首頁(yè) 科技週邊 人工智慧 CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

Mar 26, 2024 pm 12:41 PM
演算法 3d

寫在前面&筆者的個(gè)人理解

目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模組扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車輛只有透過(guò)感知模組獲得到準(zhǔn)確的感知結(jié)果後,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模組做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車中通常會(huì)配備包括環(huán)視相機(jī)感測(cè)器、光達(dá)感測(cè)器以及毫米波雷達(dá)感測(cè)器在內(nèi)的多種數(shù)據(jù)資訊感測(cè)器來(lái)收集不同模態(tài)的信息,用於實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)。

基於純視覺(jué)的BEV感知演算法因其較低的硬體成本和易於部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用於各種下游任務(wù),因此受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。近年來(lái),許多基於BEV空間的視覺(jué)感知演算法相繼湧現(xiàn),且在公開資料集上展現(xiàn)出色的感知性能。

目前,基於BEV空間的感知演算法根據(jù)建構(gòu)BEV特徵的方式可以大致分成兩類演算法模型:

  • 一類是以LSS演算法為代表的前向BEV特徵建構(gòu)方式,這類感知演算法模型首先是利用感知模型中的深度估計(jì)網(wǎng)路來(lái)預(yù)測(cè)特徵圖的每個(gè)像素點(diǎn)的語(yǔ)意特徵資訊以及離散深度機(jī)率分佈,然後將得到的語(yǔ)意特徵資訊與離散深度機(jī)率採(cǎi)用外積運(yùn)算的方式建構(gòu)語(yǔ)意視錐特徵,採(cǎi)用BEV池化等方式最終完成BEV空間特徵的建構(gòu)過(guò)程。
  • 另一類是以BEVFormer演算法為代表的反向BEV特徵建構(gòu)方式,這類感知演算法模型首先是在感知的BEV空間下明確的產(chǎn)生3D體素座標(biāo)點(diǎn),然後利用相機(jī)的內(nèi)外參將3D體素座標(biāo)點(diǎn)投影回影像座標(biāo)系下,並對(duì)對(duì)應(yīng)特徵位置的像素特徵進(jìn)行擷取與聚合,以建構(gòu)出BEV空間下的BEV特徵。

儘管兩種演算法都能夠準(zhǔn)確產(chǎn)生BEV空間下的特徵並實(shí)現(xiàn)3D感知結(jié)果,但在目前基於BEV空間的3D目標(biāo)感知演算法中,例如BEVFormer演算法,存在以下兩個(gè)問(wèn)題:

  • 問(wèn)題一:由於BEVFormer感知演算法模型整體框架採(cǎi)用的是Encoder-Decoder的網(wǎng)路結(jié)構(gòu),其主要想法是利用Encoder模組取得BEV空間下的特徵,然後利用Decoder模組預(yù)測(cè)最終的感知結(jié)果,並透過(guò)將輸出的感知結(jié)果與真值目標(biāo)計(jì)算損失來(lái)實(shí)現(xiàn)模型預(yù)測(cè)的BEV空間特徵的過(guò)程。但透過(guò)這種網(wǎng)路模型的參數(shù)更新方式會(huì)過(guò)度依賴Decoder模組的感知性能,導(dǎo)致可能存在模型輸出的BEV特徵與真值BEV特徵並不對(duì)齊的問(wèn)題,從而進(jìn)一步限制感知模型最終的表現(xiàn)性能。
  • 問(wèn)題二:由於BEVFormer感知演算法模型的Decoder模組依舊沿用Transformer中的自註意力模組->交叉注意力模組->前饋神經(jīng)網(wǎng)路的步驟完成Query特徵的建構(gòu)輸出最終的檢測(cè)結(jié)果,其整個(gè)過(guò)程依舊是一個(gè)黑盒模型,缺乏良好的可解釋性。同時(shí),Object Query與真值目標(biāo)之間的一對(duì)一配對(duì)過(guò)程在模型訓(xùn)練的過(guò)程中也存在著很大的不確定性。

為了解決BEVFormer感知演算法模型存在的問(wèn)題,我們對(duì)其進(jìn)行了改進(jìn),提出了基於環(huán)視圖像的3D檢測(cè)演算法模型CLIP-BEVFormer。我們透過(guò)引入對(duì)比學(xué)習(xí)的方法,增強(qiáng)了模型對(duì)BEV特徵的建構(gòu)能力,並在nuScenes資料集上實(shí)現(xiàn)了領(lǐng)先水準(zhǔn)的感知效能。

文章連結(jié):https://arxiv.org/pdf/2403.08919.pdf

網(wǎng)路模型的整體架構(gòu)&細(xì)節(jié)梳理

在詳細(xì)在介紹本文提出的CLIP-BEVFormer感知演算法模型細(xì)節(jié)之前,下圖展示了CLIP-BEVFormer演算法的整體網(wǎng)路結(jié)構(gòu)。

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能本文提出的CLIP-BEVFormer感知演算法模型整體流程圖

透過(guò)演算法的整體流程圖可以看出,本文提出的CLIP-BEVFormer演算法模型是在BEVFormer演算法模型的基礎(chǔ)上進(jìn)行改進(jìn)的,這裡先簡(jiǎn)單回顧一下BEVFormer感知演算法模型的實(shí)作過(guò)程。首先,BEVFormer演算法模型輸入的是相機(jī)感測(cè)器擷取到的環(huán)視圖像數(shù)據(jù),利用2D的影像特徵來(lái)擷取網(wǎng)路提取輸入環(huán)視圖像的多尺度語(yǔ)意特徵資訊。其次,利用包含時(shí)序自註意力和空間交叉注意力的Encoder模組完成2D影像特徵向BEV空間特徵的轉(zhuǎn)換過(guò)程。然後,在3D感知空間中以常態(tài)分佈的形式產(chǎn)生一組Object Query,並送入Decoder模組中完成與Encoder模組輸出的BEV空間特徵的空間特徵交互利用。最後利用前饋神經(jīng)網(wǎng)路預(yù)測(cè)Object Query查詢到的語(yǔ)意特徵,輸出網(wǎng)路模型最終的分類與迴歸結(jié)果。同時(shí),在BEVFormer演算法模型訓(xùn)練的過(guò)程中,採(cǎi)用一對(duì)一的匈牙利配對(duì)策略完成正負(fù)樣本的分配過(guò)程,並利用分類和迴歸損失完成整體網(wǎng)路模型參數(shù)的更新過(guò)程。 BEVFormer演算法模型整體的偵測(cè)過(guò)程可以用如下的數(shù)學(xué)公式來(lái)表示:

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

其中,公式中的代表BEVFormer演算法中的Encoder特徵擷取模組,代表BEVFormer演算法中的Decoder解碼模組,代表資料集中的真值目標(biāo)標(biāo)籤,代表目前BEVFormer演算法模型輸出的3D感知結(jié)果。

真值BEV的生成

在上文已經(jīng)有提到,現(xiàn)有的絕大多數(shù)基於BEV空間的3D目標(biāo)偵測(cè)演算法沒(méi)有顯式的對(duì)產(chǎn)生的BEV空間特徵進(jìn)行監(jiān)督,導(dǎo)致模型產(chǎn)生的BEV特徵可能存在與真實(shí)的BEV特徵不一致的問(wèn)題,這種BEV空間特徵的分佈差異會(huì)限制模型最終的感知性能?;哆@個(gè)考慮出發(fā),我們提出了Ground Truth BEV模組,我們?cè)O(shè)計(jì)該模組的核心思路是想讓模型生成的BEV特徵可以和當(dāng)前真值BEV特徵進(jìn)行對(duì)齊,從而提高模型的表現(xiàn)性能。

具體而言,如整體網(wǎng)路框架圖所示,我們使用了一個(gè)真值編碼器()用來(lái)對(duì)BEV特徵圖上的任意一個(gè)真值實(shí)例的類別標(biāo)籤和空間邊界框位置資訊進(jìn)行編碼,該過(guò)程可以用公式表述成如下的形式:

其中公式中的具有和生成的BEV特徵圖同等大小的特徵維度,代表某個(gè)真值目標(biāo)被編碼後的特徵資訊。在編碼的過(guò)程中,我們採(cǎi)用了兩種形式,一種是大語(yǔ)言模型(LLM),另一種是多層感知機(jī)(MLP),透過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),兩種方式基本上達(dá)到了同樣的表現(xiàn)。

除此之外,我們?yōu)榱诉M(jìn)一步增強(qiáng)真值目標(biāo)在BEV特徵圖上的邊界信息,我們?cè)贐EV特徵圖上根據(jù)真值目標(biāo)所在的空間位置將其裁剪下來(lái),並對(duì)裁剪後的特徵採(cǎi)用池化操作建構(gòu)對(duì)應(yīng)的特徵資訊表示,該過(guò)程可以表述成如下的形式:

最後,我們?yōu)榱藢?shí)現(xiàn)模型產(chǎn)生的BEV特徵與真值BEV特徵的進(jìn)一步對(duì)齊,我們採(cǎi)用了對(duì)比學(xué)習(xí)的方法來(lái)優(yōu)化兩類BEV特徵之間的元素關(guān)係和距離,其優(yōu)化過(guò)程可以表述成如下的形式:

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

##其中公式中的和分別代表產(chǎn)生的BEV特徵和真值BEV特徵之間的相似度矩陣,代表對(duì)比學(xué)習(xí)中的邏輯尺度因子,表示矩陣間的乘法運(yùn)算,代表交叉熵?fù)p失函數(shù)。透過(guò)上述對(duì)比學(xué)習(xí)的方式,我們提出的方法可以為生成的BEV特徵提供更明確的特徵指導(dǎo),提高模型的感知能力。

真值目標(biāo)查詢交互

這部分在前文中也有提到,BEVFormer感知演算法模型中的Object Query透過(guò)Decoder模組與產(chǎn)生的BEV特徵進(jìn)行交互,獲得對(duì)應(yīng)的目標(biāo)查詢特徵,但該過(guò)程整體還是一個(gè)黑盒子過(guò)程,缺少一個(gè)完整的流程理解。針對(duì)這個(gè)問(wèn)題,我們引入了真值查詢交互模組,透過(guò)將真值目標(biāo)來(lái)執(zhí)行Decoder模組的BEV特徵交互作用來(lái)激發(fā)模型參數(shù)的學(xué)習(xí)過(guò)程。具體而言,我們將真值編碼器()模組輸出的真值目標(biāo)編碼訊息引入到Object Query當(dāng)中參與Decoder模組的解碼過(guò)程,與正常的Object Query參與相同的自註意力模組,交叉注意力模組以及前饋神經(jīng)網(wǎng)路輸出最終的感知結(jié)果。但要注意的是,在解碼的過(guò)程中,所有的Object Query均是採(cǎi)用了並行計(jì)算的方式,防止真值目標(biāo)訊息的洩漏。整個(gè)真值目標(biāo)查詢互動(dòng)過(guò)程,可以抽象表述成如下的形式:

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

#其中,公式中的代表初始化的Object Query,和分別代表真值Object Query經(jīng)過(guò)Decoder模組和感知偵測(cè)頭的輸出結(jié)果。透過(guò)在模型訓(xùn)練的過(guò)程中引入真值目標(biāo)的交互過(guò)程,我們提出的真值目標(biāo)查詢交互模組可以實(shí)現(xiàn)真值目標(biāo)查詢與真值BEV特徵進(jìn)行交互,從而輔助模型Decoder模組的參數(shù)更新過(guò)程。

實(shí)驗(yàn)結(jié)果&評(píng)估指標(biāo)

定量分析部分

為了驗(yàn)證我們提出的CLIP-BEVFormer演算法模型的有效性,我們分別在nuScenes資料集上從3D感知效果、資料集中目標(biāo)類別的長(zhǎng)尾分佈情況以及魯棒性等角度出發(fā)進(jìn)行了相關(guān)實(shí)驗(yàn),下表是我們提出的演算法模型與其他3D感知演算法模型在nuScenes資料集上的精確度比較情況。

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

本文所提出的方法與其他感知演算法模型的比較結(jié)果

在這部分實(shí)驗(yàn)中,我們分別評(píng)估了不同模型配置情況下的感知性能,具體而言,我們將CLIP-BEVFormer演算法模型應(yīng)用於BEVFormer的tiny和base變體中。此外,我們也探討了將預(yù)先訓(xùn)練的CLIP模型或MLP層作為真值目標(biāo)編碼器對(duì)於模型感知效能的影響。透過(guò)實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是原先的tiny或base變體,在應(yīng)用了我們提出的CLIP-BEVFormer演算法後,NDS和mAP指標(biāo)均有穩(wěn)定的效能提升。除此之外,透過(guò)實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn),對(duì)於真值目標(biāo)編碼器選擇MLP層還是語(yǔ)言模型,我們提出的演算法模型對(duì)於此並不敏感,這種彈性可以讓我們提出的CLIP-BEVFormer演算法更具有適應(yīng)能力並且方便上車部署??傊覀兲岢龅难菟惴P偷母黝愖凅w的性能指標(biāo)一致表明提出的CLIP-BEVFormer演算法模型具有很好的感知穩(wěn)健性,可以在不同模型複雜度和參數(shù)量的情況下實(shí)現(xiàn)出色的檢測(cè)性能。

除了驗(yàn)證我們提出的CLIP-BEVFormer在3D感知任務(wù)上的表現(xiàn)外,我們還進(jìn)行了長(zhǎng)尾分佈的實(shí)驗(yàn)來(lái)評(píng)估我們的演算法在面對(duì)資料集中存在長(zhǎng)尾分佈情況下的魯棒性和泛化能力,實(shí)驗(yàn)結(jié)果匯總在下表

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

提出的CLIP-BEVFormer演算法模型在長(zhǎng)尾問(wèn)題上的表現(xiàn)性能

通過(guò)上表的實(shí)驗(yàn)結(jié)果可以看出,nuScenes資料集中表現(xiàn)出了極大的類別數(shù)量不均衡的問(wèn)題,其中一些類別如(建築車輛、公車、摩托車、自行車等)佔(zhàn)比很低,但是對(duì)於小型汽車的佔(zhàn)比非常高。我們透過(guò)進(jìn)行長(zhǎng)尾分佈的相關(guān)實(shí)驗(yàn)來(lái)評(píng)估所提出的CLIP-BEVFormer演算法模型在特徵類別上的感知效能,從而驗(yàn)證其解決較不常見類別的處理能力。透過(guò)上述的實(shí)驗(yàn)數(shù)據(jù)可以看出,提出的CLIP-BEVFormer演算法模型在所有類別上均實(shí)現(xiàn)了性能的提升,並且在對(duì)於佔(zhàn)比極少的類別上,CLIP-BEVFormer演算法模型展示出了明顯的實(shí)質(zhì)性改進(jìn)。

考慮到在真實(shí)環(huán)境下的自動(dòng)駕駛系統(tǒng)需要面臨硬體故障、惡劣天氣狀況或人造障礙物容易引發(fā)的感測(cè)器故障等問(wèn)題,我們進(jìn)一步實(shí)驗(yàn)驗(yàn)證了所提出的演算法模型的穩(wěn)健性。具體而言,我們?yōu)榱四M感測(cè)器的故障問(wèn)題,我們?cè)谀P蛯?shí)施推理的過(guò)程中隨機(jī)對(duì)一個(gè)相機(jī)的攝像頭進(jìn)行遮擋,從而實(shí)現(xiàn)對(duì)於相機(jī)可能出現(xiàn)故障的場(chǎng)景進(jìn)行模擬,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能所提出的CLIP-BEVFormer演算法模型的穩(wěn)健性實(shí)驗(yàn)結(jié)果

透過(guò)實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是在tiny或base的模型參數(shù)配置下,我們提出的CLIP-BEVFormer演算法模型始終要優(yōu)於BEVFormer的相同配置的基準(zhǔn)模型,驗(yàn)證了我們的演算法模型在模擬感測(cè)器故障情況下的優(yōu)越性能和優(yōu)秀的魯棒性。

定性分析部分

下圖展示了我們提出的CLIP-BEVFormer演算法模型與BEVFormer演算法模型的感知結(jié)果視覺(jué)化對(duì)比情況。透過(guò)視覺(jué)化的結(jié)果可以看出,我們提出的CLIP-BEVFormer演算法模型的感知結(jié)果與真值目標(biāo)更加的接近,顯示我們提出的真值BEV特徵產(chǎn)生模組與真值目標(biāo)查詢互動(dòng)模組的有效性。

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能

提出的CLIP-BEVFormer演算法模型與BEVFormer演算法模型感知結(jié)果的視覺(jué)化對(duì)比情況

結(jié)論

#在本文中,針對(duì)原有的BEVFormer演算法當(dāng)中存在的生成BEV特徵圖過(guò)程中缺少顯示監(jiān)督以及Decoder模組中Object Query與BEV特徵交互查詢的不確定問(wèn)題,我們提出了CLIP-BEVFormer演算法模型,並從演算法模型的3D感知性能、目標(biāo)長(zhǎng)尾分佈以及在感測(cè)器故障的穩(wěn)健性等方面進(jìn)行實(shí)驗(yàn),大量的實(shí)驗(yàn)結(jié)果顯示我們提出的CLIP-BEVFormer演算法模型的有效性。

#

以上是CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能 CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾偵測(cè)性能 Mar 26, 2024 pm 12:41 PM

寫在前面&筆者的個(gè)人理解目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模組扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車輛只有通過(guò)感知模組獲得到準(zhǔn)確的感知結(jié)果後,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模組做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車中通常會(huì)配備包括環(huán)視相機(jī)感測(cè)器、光達(dá)感測(cè)器以及毫米波雷達(dá)感測(cè)器在內(nèi)的多種數(shù)據(jù)資訊感測(cè)器來(lái)收集不同模態(tài)的信息,用於實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)。基於純視覺(jué)的BEV感知演算法因其較低的硬體成本和易於部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用於各種下游任務(wù),因此受到工業(yè)

人工智慧可以預(yù)測(cè)犯罪嗎?探索CrimeGPT的能力 人工智慧可以預(yù)測(cè)犯罪嗎?探索CrimeGPT的能力 Mar 22, 2024 pm 10:10 PM

人工智慧(AI)與執(zhí)法領(lǐng)域的融合為犯罪預(yù)防和偵查開啟了新的可能性。人工智慧的預(yù)測(cè)能力被廣泛應(yīng)用於CrimeGPT(犯罪預(yù)測(cè)技術(shù))等系統(tǒng),用於預(yù)測(cè)犯罪活動(dòng)。本文探討了人工智慧在犯罪預(yù)測(cè)領(lǐng)域的潛力、目前的應(yīng)用情況、所面臨的挑戰(zhàn)以及相關(guān)技術(shù)可能帶來(lái)的道德影響。人工智慧和犯罪預(yù)測(cè):基礎(chǔ)知識(shí)CrimeGPT利用機(jī)器學(xué)習(xí)演算法來(lái)分析大量資料集,識(shí)別可以預(yù)測(cè)犯罪可能發(fā)生的地點(diǎn)和時(shí)間的模式。這些資料集包括歷史犯罪統(tǒng)計(jì)資料、人口統(tǒng)計(jì)資料、經(jīng)濟(jì)指標(biāo)、天氣模式等。透過(guò)識(shí)別人類分析師可能忽視的趨勢(shì),人工智慧可以為執(zhí)法機(jī)構(gòu)

牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項(xiàng)目連結(jié):https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過(guò)建立圖片之間的對(duì)應(yīng)關(guān)係來(lái)估計(jì)它們之間的相機(jī)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)係是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴外部的深度估計(jì)器來(lái)恢復(fù)尺度。本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)係。透過(guò)學(xué)習(xí)跨影像的三維座標(biāo)匹配,我們能夠在沒(méi)有深度測(cè)試的情況下推斷度量相對(duì)

探究C++sort函數(shù)的底層原理與演算法選擇 探究C++sort函數(shù)的底層原理與演算法選擇 Apr 02, 2024 pm 05:36 PM

C++sort函數(shù)底層採(cǎi)用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩(wěn)定排序。

使用C++實(shí)現(xiàn)機(jī)器學(xué)習(xí)演算法:常見挑戰(zhàn)及解決方案 使用C++實(shí)現(xiàn)機(jī)器學(xué)習(xí)演算法:常見挑戰(zhàn)及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機(jī)器學(xué)習(xí)演算法面臨的常見挑戰(zhàn)包括記憶體管理、多執(zhí)行緒、效能最佳化和可維護(hù)性。解決方案包括使用智慧指標(biāo)、現(xiàn)代線程庫(kù)、SIMD指令和第三方庫(kù),並遵循程式碼風(fēng)格指南和使用自動(dòng)化工具。實(shí)作案例展示如何利用Eigen函式庫(kù)實(shí)現(xiàn)線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

3D視覺(jué)繞不開的點(diǎn)雲(yún)配準(zhǔn)!一文搞懂所有主流方案與挑戰(zhàn) 3D視覺(jué)繞不開的點(diǎn)雲(yún)配準(zhǔn)!一文搞懂所有主流方案與挑戰(zhàn) Apr 02, 2024 am 11:31 AM

作為點(diǎn)集合的點(diǎn)雲(yún)有望透過(guò)3D重建、工業(yè)檢測(cè)和機(jī)器人操作中,在獲取和生成物體的三維(3D)表面資訊方面帶來(lái)一場(chǎng)改變。最具挑戰(zhàn)性但必不可少的過(guò)程是點(diǎn)雲(yún)配準(zhǔn),即獲得一個(gè)空間變換,該變換將在兩個(gè)不同座標(biāo)中獲得的兩個(gè)點(diǎn)雲(yún)對(duì)齊並匹配。這篇綜述介紹了點(diǎn)雲(yún)配準(zhǔn)的概述和基本原理,對(duì)各種方法進(jìn)行了系統(tǒng)的分類和比較,並解決了點(diǎn)雲(yún)配準(zhǔn)中存在的技術(shù)問(wèn)題,試圖為該領(lǐng)域以外的學(xué)術(shù)研究人員和工程師提供指導(dǎo),並促進(jìn)點(diǎn)雲(yún)配準(zhǔn)統(tǒng)一願(yuàn)景的討論。點(diǎn)雲(yún)獲取的一般方式分為主動(dòng)和被動(dòng)方式,由感測(cè)器主動(dòng)獲取的點(diǎn)雲(yún)為主動(dòng)方式,後期透過(guò)重建的方式

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新) LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新) May 09, 2024 pm 04:55 PM

寫在前面&筆者的個(gè)人理解這篇論文致力於解決當(dāng)前多模態(tài)大語(yǔ)言模型(MLLMs)在自動(dòng)駕駛應(yīng)用中存在的關(guān)鍵挑戰(zhàn),即將MLLMs從2D理解擴(kuò)展到3D空間的問(wèn)題。由於自動(dòng)駕駛車輛(AVs)需要針對(duì)3D環(huán)境做出準(zhǔn)確的決策,這項(xiàng)擴(kuò)展顯得格外重要。 3D空間理解對(duì)於AV來(lái)說(shuō)至關(guān)重要,因?yàn)樗苯佑绊戃囕v做出明智決策、預(yù)測(cè)未來(lái)狀態(tài)以及與環(huán)境安全互動(dòng)的能力。目前的多模態(tài)大語(yǔ)言模型(如LLaVA-1.5)通常只能處理較低解析度的影像輸入(例如),這是由於視覺(jué)編碼器的分辨率限制,LLM序列長(zhǎng)度的限制。然而,自動(dòng)駕駛應(yīng)用需

演算法在 58 畫像平臺(tái)建置中的應(yīng)用 演算法在 58 畫像平臺(tái)建置中的應(yīng)用 May 09, 2024 am 09:01 AM

一、58畫像平臺(tái)建置背景首先和大家分享下58畫像平臺(tái)的建造背景。 1.傳統(tǒng)的畫像平臺(tái)傳統(tǒng)的想法已經(jīng)不夠,建立用戶畫像平臺(tái)依賴數(shù)據(jù)倉(cāng)儲(chǔ)建模能力,整合多業(yè)務(wù)線數(shù)據(jù),建構(gòu)準(zhǔn)確的用戶畫像;還需要數(shù)據(jù)挖掘,理解用戶行為、興趣和需求,提供演算法側(cè)的能力;最後,還需要具備數(shù)據(jù)平臺(tái)能力,有效率地儲(chǔ)存、查詢和共享用戶畫像數(shù)據(jù),提供畫像服務(wù)。業(yè)務(wù)自建畫像平臺(tái)和中臺(tái)類型畫像平臺(tái)主要區(qū)別在於,業(yè)務(wù)自建畫像平臺(tái)服務(wù)單條業(yè)務(wù)線,按需定制;中臺(tái)平臺(tái)服務(wù)多條業(yè)務(wù)線,建模複雜,提供更為通用的能力。 2.58中臺(tái)畫像建構(gòu)的背景58的使用者畫像

See all articles