国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
方法
實(shí)驗(yàn)
首頁 科技周邊 人工智能 VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

Mar 02, 2024 am 10:10 AM
研究 訓(xùn)練 編碼器

EfficientSAM 這篇工作以5/5/5滿分收錄于CVPR 2024!作者在某社交媒體上分享了該結(jié)果,如下圖所示:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

LeCun 圖靈獎(jiǎng)得主也強(qiáng)烈推薦了該工作!

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

在近期的研究中,Meta 研究者提出了一種新的改進(jìn)方法,即使用 SAM 的掩碼圖像預(yù)訓(xùn)練 (SAMI)。這一方法結(jié)合了 MAE 預(yù)訓(xùn)練技術(shù)和 SAM 模型,旨在實(shí)現(xiàn)高質(zhì)量的預(yù)訓(xùn)練 ViT 編碼器。通過 SAMI,研究者試圖提高模型的性能和效率,為視覺任務(wù)提供更好的解決方案。這一方法的提出為進(jìn)一步探索和發(fā)展計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域帶來了新的思路和機(jī)遇。通過結(jié)合不同的預(yù)訓(xùn)練技術(shù)和模型結(jié)構(gòu),研究者們不斷


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


  • 論文鏈接:https://arxiv.org/pdf/2312.00863
  • 代碼:github.com/yformer/EfficientSAM
  • 主頁:https://yformer.github.io/efficient-sam/

這一方法降低了 SAM 的復(fù)雜性,同時(shí)能夠保持良好的性能。具體來說,SAMI 利用 SAM 編碼器 ViT-H 生成特征嵌入,并用輕量級(jí)編碼器訓(xùn)練掩碼圖像模型,從而從 SAM 的 ViT-H 而不是圖像補(bǔ)丁重建特征,產(chǎn)生的通用 ViT 骨干可用于下游任務(wù),如圖像分類、物體檢測(cè)和分割等。然后,研究者利用 SAM 解碼器對(duì)預(yù)訓(xùn)練的輕量級(jí)編碼器進(jìn)行微調(diào),以完成任何分割任務(wù)。

為了驗(yàn)證這種方法的有效性,研究人員使用了掩碼圖像預(yù)訓(xùn)練的遷移學(xué)習(xí)設(shè)置。具體來說,他們首先在圖像分辨率為224×224的ImageNet數(shù)據(jù)集上,通過重構(gòu)損失對(duì)模型進(jìn)行了預(yù)訓(xùn)練。隨后,他們利用目標(biāo)任務(wù)的監(jiān)督數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。這種遷移學(xué)習(xí)方法可以幫助模型在新任務(wù)上快速學(xué)習(xí)并提高性能,因?yàn)槟P鸵呀?jīng)通過預(yù)訓(xùn)練階段學(xué)會(huì)了從原始數(shù)據(jù)中提取特征。這種遷移學(xué)習(xí)策略有效地利用了在大規(guī)模數(shù)據(jù)集上學(xué)到的知識(shí),使模型更容易適應(yīng)不同的任務(wù),同時(shí)

通過 SAMI 預(yù)訓(xùn)練,可以在 ImageNet-1K 上訓(xùn)練 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。對(duì)于 ViT-Small 模型,研究者在 ImageNet-1K 上進(jìn)行 100 次微調(diào)后,其 Top-1 準(zhǔn)確率達(dá)到 82.7%,優(yōu)于其他最先進(jìn)的圖像預(yù)訓(xùn)練基線。

研究者在目標(biāo)檢測(cè)、實(shí)例分割和語義分割上對(duì)預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。在所有這些任務(wù)中,本文方法都取得了比其他預(yù)訓(xùn)練基線更好的結(jié)果,更重要的是在小模型上獲得了顯著收益。

論文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 參數(shù)減少了 20 倍,但運(yùn)行時(shí)間快了 20 倍,只與原始 SAM 模型的差距在 2 個(gè)百分點(diǎn)以內(nèi),大大優(yōu)于 MobileSAM/FastSAM。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

在 demo 演示中,點(diǎn)擊圖片中的動(dòng)物,EfficientSAM 就能快速將物體進(jìn)行分割:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 還能準(zhǔn)確標(biāo)定出圖片中的人:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

試玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含兩個(gè)階段:1)在 ImageNet 上對(duì) SAMI 進(jìn)行預(yù)訓(xùn)練(上);2)在 SA-1B 上微調(diào) SAM(下)。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 主要包含以下組件:

交叉注意力解碼器:在 SAM 特征的監(jiān)督下,本文觀察到只有掩碼 token 需要通過解碼器重建,而編碼器的輸出可以在重建過程中充當(dāng)錨點(diǎn)(anchors)。在交叉注意力解碼器中,查詢來自于掩碼 token,鍵和值源自編碼器的未掩碼特征和掩碼特征。本文將來自交叉注意力解碼器掩碼 token 的輸出特征和來自編碼器的未掩碼 token 的輸出特征進(jìn)行合并,以進(jìn)行 MAE 輸出嵌入。然后,這些組合特征將被重新排序到最終 MAE 輸出的輸入圖像 token 的原始位置。

線性投影頭。研究者通過編碼器和交叉注意力解碼器獲得的圖像輸出,接下來將這些特征輸入到一個(gè)小型項(xiàng)目頭(project head)中,以對(duì)齊 SAM 圖像編碼器中的特征。為簡(jiǎn)單起見,本文僅使用線性投影頭來解決 SAM 圖像編碼器和 MAE 輸出之間的特征維度不匹配問題。

重建損失。在每次訓(xùn)練迭代中,SAMI 包括來自 SAM 圖像編碼器的前向特征提取以及 MAE 的前向和反向傳播過程。來自 SAM 圖像編碼器和 MAE 線性投影頭的輸出會(huì)進(jìn)行比較,從而計(jì)算重建損失。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

經(jīng)過預(yù)訓(xùn)練,編碼器可以對(duì)各種視覺任務(wù)的特征表示進(jìn)行提取,而且解碼器也會(huì)被廢棄。特別是,為了構(gòu)建用于分割任何任務(wù)的高效 SAM 模型,本文采用 SAMI 預(yù)訓(xùn)練的輕量級(jí)編碼器(例如 ViT-Tiny 和 ViT-Small)作為 EfficientSAM 的圖像編碼器和 SAM 的默認(rèn)掩碼解碼器,如圖所示 2(底部)。本文在 SA-1B 數(shù)據(jù)集上對(duì) EfficientSAM 模型進(jìn)行微調(diào),以實(shí)現(xiàn)分割任何任務(wù)。

實(shí)驗(yàn)

圖像分類。為了評(píng)估本文方法在圖像分類任務(wù)上的有效性,研究者將 SAMI 思想應(yīng)用于 ViT 模型,并比較它們?cè)?ImageNet-1K 上的性能。

如表 1 將 SAMI 與 MAE、iBOT、CAE 和 BEiT 等預(yù)訓(xùn)練方法以及 DeiT 和 SSTA 等蒸餾方法進(jìn)行了比較。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

SAMI-B 的 top1 準(zhǔn)確率達(dá)到 84.8%,比預(yù)訓(xùn)練基線、MAE、DMAE、iBOT、CAE 和 BEiT 都高。與 DeiT 和 SSTA 等蒸餾方法相比,SAMI 也顯示出較大的改進(jìn)。對(duì)于 ViT-Tiny 和 ViT-Small 等輕量級(jí)模型,SAMI 結(jié)果與 DeiT、SSTA、DMAE 和 MAE 相比有顯著的增益。

目標(biāo)檢測(cè)和實(shí)例分割。本文還將經(jīng)過 SAMI 預(yù)訓(xùn)練的 ViT 主干擴(kuò)展到下游目標(biāo)檢測(cè)和實(shí)例分割任務(wù)上,并將其與在 COCO 數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的基線進(jìn)行比較。如表 2 所示, SAMI 始終優(yōu)于其他基線的性能。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

這些實(shí)驗(yàn)結(jié)果表明,SAMI 在目標(biāo)檢測(cè)和實(shí)例分割任務(wù)中所提供的預(yù)訓(xùn)練檢測(cè)器主干非常有效。

語義分割。本文進(jìn)一步將預(yù)訓(xùn)練主干擴(kuò)展到語義分割任務(wù),以評(píng)估其有效性。結(jié)果如表 3 所示,使用 SAMI 預(yù)訓(xùn)練主干網(wǎng)的 Mask2former 在 ImageNet-1K 上比使用 MAE 預(yù)訓(xùn)練的主干網(wǎng)實(shí)現(xiàn)了更好的 mIoU。這些實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的技術(shù)可以很好地泛化到各種下游任務(wù)。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

表 4 將 EfficientSAMs 與 SAM、MobileSAM 和 SAM-MAE-Ti 進(jìn)行比較。在 COCO 上,EfficientSAM-Ti 的性能優(yōu)于 MobileSAM。EfficientSAM-Ti 具有 SAMI 預(yù)訓(xùn)練權(quán)重,也比 MAE 預(yù)訓(xùn)練權(quán)重表現(xiàn)更好。?

此外, EfficientSAM-S 在 COCO box 僅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,參數(shù)減少了 20 倍。本文還發(fā)現(xiàn),與 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次點(diǎn)擊(multiple click)方面也表現(xiàn)出了良好的性能。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

表 5 展示了零樣本實(shí)例分割的 AP、APS、APM 和 APL。研究者將 EfficientSAM 與 MobileSAM 和 FastSAM 進(jìn)行了比較,可以看到,與 FastSAM 相比,EfficientSAM-S 在 COCO 上獲得了超過 6.5 個(gè) AP,在 LVIS 上獲得了 7.8 個(gè) AP。就 EffidientSAM-Ti 而言,仍然遠(yuǎn)遠(yuǎn)優(yōu)于 FastSAM,在 COCO 上為 4.1 個(gè) AP,在 LVIS 上為 5.3 個(gè) AP,而 MobileSAM 在 COCO 上為 3.6 個(gè) AP,在 LVIS 上為 5.5 個(gè) AP。

而且,EfficientSAM 比 FastSAM 輕得多,efficientSAM-Ti 的參數(shù)為 9.8M,而 FastSAM 的參數(shù)為 68M。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

圖 3、4、5 提供了一些定性結(jié)果,以便讀者對(duì) EfficientSAMs 的實(shí)例分割能力有一個(gè)補(bǔ)充性了解。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

更多研究細(xì)節(jié),可參考原論文。

以上是VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計(jì)! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計(jì)! Apr 03, 2024 pm 12:04 PM

0.這篇文章干了啥?提出了DepthFM:一個(gè)多功能且快速的最先進(jìn)的生成式單目深度估計(jì)模型。除了傳統(tǒng)的深度估計(jì)任務(wù)外,DepthFM還展示了在深度修復(fù)等下游任務(wù)中的最先進(jìn)能力。DepthFM效率高,可以在少數(shù)推理步驟內(nèi)合成深度圖。下面一起來閱讀一下這項(xiàng)工作~1.論文信息標(biāo)題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

拋棄編碼器-解碼器架構(gòu),用擴(kuò)散模型做邊緣檢測(cè)效果更好,國防科大提出DiffusionEdge 拋棄編碼器-解碼器架構(gòu),用擴(kuò)散模型做邊緣檢測(cè)效果更好,國防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

當(dāng)前的深度邊緣檢測(cè)網(wǎng)絡(luò)通常采用編碼器-解碼器架構(gòu),其中包含上下采樣模塊,以更好地提取多層次的特征。然而,這種結(jié)構(gòu)限制了網(wǎng)絡(luò)輸出準(zhǔn)確且細(xì)致的邊緣檢測(cè)結(jié)果。針對(duì)這一問題,一篇AAAI2024上的論文給出了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉云帆(國防科技大學(xué)),徐凱(國防科技大學(xué)),黃雨行(國防科技大學(xué)),易任嬌(國防科技大學(xué)),蔡志平(國防科技大學(xué))論文鏈接:https://ar

通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5 通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5 Feb 07, 2024 pm 10:15 PM

趕在春節(jié)前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發(fā)了AI社區(qū)關(guān)注。新版大模型包括六個(gè)型號(hào)尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強(qiáng)版本的性能超越了GPT3.5和Mistral-Medium。該版本包含Base模型和Chat模型,并提供多語言支持。阿里通義千問團(tuán)隊(duì)表示,相關(guān)技術(shù)也已經(jīng)上線到了通義千問官網(wǎng)和通義千問App。除此以外,今天Qwen1.5的發(fā)布還有如下一些重點(diǎn):支持32K上下文長度;開放了Base+Chat模型的checkpoint;

你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇壞馬斯克 你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇壞馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動(dòng)力Atlas,正式進(jìn)入電動(dòng)機(jī)器人時(shí)代!昨天,液壓Atlas剛剛「含淚」退出歷史舞臺(tái),今天波士頓動(dòng)力就宣布:電動(dòng)Atlas上崗。看來,在商用人形機(jī)器人領(lǐng)域,波士頓動(dòng)力是下定決心要和特斯拉硬剛一把了。新視頻放出后,短短十幾小時(shí)內(nèi),就已經(jīng)有一百多萬觀看。舊人離去,新角色登場(chǎng),這是歷史的必然。毫無疑問,今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評(píng):機(jī)器人的進(jìn)步,讓今年看起來像人類的開幕式動(dòng)作、自由度遠(yuǎn)超人類,但這真不是恐怖片?視頻一開始,Atlas平靜地躺在地上,看起來應(yīng)該是仰面朝天。接下來,讓人驚掉下巴

大模型也能切片,微軟SliceGPT讓LLAMA-2計(jì)算效率大增 大模型也能切片,微軟SliceGPT讓LLAMA-2計(jì)算效率大增 Jan 31, 2024 am 11:39 AM

大型語言模型(LLM)通常擁有數(shù)十億參數(shù),經(jīng)過數(shù)萬億token的數(shù)據(jù)訓(xùn)練。然而,這樣的模型訓(xùn)練和部署成本都非常昂貴。為了降低計(jì)算需求,人們常常采用各種模型壓縮技術(shù)。這些模型壓縮技術(shù)一般可以分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝和量化。剪枝方法已經(jīng)存在一段時(shí)間,但許多方法需要在剪枝后進(jìn)行恢復(fù)微調(diào)(RFT)以保持性能,這使得整個(gè)過程成本高且難以擴(kuò)展。蘇黎世聯(lián)邦理工學(xué)院和微軟的研究者提出了一個(gè)解決此問題的方法,名為SliceGPT。該方法的核心思想是通過刪除權(quán)重矩陣中的行和列來降低網(wǎng)絡(luò)的嵌

趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強(qiáng)了 趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強(qiáng)了 Feb 01, 2024 pm 04:51 PM

在去年4月,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究者們聯(lián)合發(fā)布了LLaVA(LargeLanguageandVisionAssistant)。盡管LLaVA只是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集進(jìn)行訓(xùn)練,但在一些樣本上展現(xiàn)出了與GPT-4非常相似的推理結(jié)果。然后在10月,他們推出了LLaVA-1.5,通過對(duì)原始LLaVA進(jìn)行簡(jiǎn)單修改,在11個(gè)基準(zhǔn)測(cè)試中刷新了SOTA。這次升級(jí)的結(jié)果非常令人振奮,為多模態(tài)AI助手領(lǐng)域帶來了新的突破。研究團(tuán)隊(duì)宣布推出LLaVA-1.6版本,針對(duì)推理、OCR和

美國空軍高調(diào)展示首個(gè)AI戰(zhàn)斗機(jī)!部長親自試駕全程未干預(yù),10萬行代碼試飛21次 美國空軍高調(diào)展示首個(gè)AI戰(zhàn)斗機(jī)!部長親自試駕全程未干預(yù),10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近,軍事圈被這個(gè)消息刷屏了:美軍的戰(zhàn)斗機(jī),已經(jīng)能由AI完成全自動(dòng)空戰(zhàn)了。是的,就在最近,美軍的AI戰(zhàn)斗機(jī)首次公開,揭開了神秘面紗。這架戰(zhàn)斗機(jī)的全名是可變穩(wěn)定性飛行模擬器測(cè)試飛機(jī)(VISTA),由美空軍部長親自搭乘,模擬了一對(duì)一的空戰(zhàn)。5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時(shí)的飛行中,所有飛行動(dòng)作都由AI自主完成!Kendall表示——在過去的幾十年中,我們一直在思考自主空對(duì)空作戰(zhàn)的無限潛力,但它始終顯得遙不可及。然而如今,

超級(jí)智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題 超級(jí)智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。尤其在多模態(tài)任務(wù)中,這一問題尤為突出。一籌莫展之際,來自人大系的初創(chuàng)團(tuán)隊(duì),用自家的新模型,率先在國內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對(duì)模型本身進(jìn)行數(shù)據(jù)反哺。模型是啥?中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker1.0。團(tuán)隊(duì)是誰?智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高

See all articles