www国产亚洲精品久久麻豆,丁香婷婷激情俺也去俺来也,成人免费区一区二区三区

首頁

科技周邊

人工智能

可口可樂：對比字幕是圖像文本基礎(chǔ)模型在視覺上解釋

Jennifer Aniston

Mar 10, 2025 am 11:17 AM

為清晰度和準確性編輯，該數(shù)據(jù)掃描社區(qū)教程探討了圖像文本基礎(chǔ)模型，重點介紹了創(chuàng)新的對比字幕（COCA）模型。可口可樂獨特地結(jié)合了對比和生成性學(xué)習(xí)目標，將諸如剪輯和simvlm之類的模型的優(yōu)勢整合到單個體系結(jié)構(gòu)中。

CoCa: Contrastive Captioners are Image-Text Foundation Models Visually Explained

基礎(chǔ)模型：深水潛水

> 在大規(guī)模數(shù)據(jù)集上預(yù)先訓(xùn)練的基礎(chǔ)模型適用于各種下游任務(wù)。盡管NLP的基礎(chǔ)模型（GPT，BERT）激增，但視覺和視覺模型仍在不斷發(fā)展。研究探索了三種主要方法：單名模型，具有對比損失的圖像文本編碼器以及具有生成目標的編碼器模型。每種方法都有局限性。

密鑰術(shù)語：

基礎(chǔ)模型：預(yù)先訓(xùn)練的模型適用于各種應(yīng)用。
對比損失：比較相似和不同輸入對的損失函數(shù)。
>交叉模式相互作用：不同數(shù)據(jù)類型之間的相互作用（例如，圖像和文本）。
> encoder-decoder體系結(jié)構(gòu)： 神經(jīng)網(wǎng)絡(luò)處理輸入和生成輸出。
在看不見的數(shù)據(jù)類別上預(yù)測。在
一個簡單的視覺語言模型。
模型比較：

單個編碼器模型：

在視覺任務(wù)上出色，但由于依賴人類注釋而與視力語言任務(wù)斗爭。>

image-Text雙編碼模型（剪輯，對齊）：非常適合零攝像分類和圖像檢索，但在需要融合的image-text表示的任務(wù)中有限（例如，視覺詢問）。

生成模型（SIMVLM）：使用跨模式相互作用進行關(guān)節(jié)圖像文本表示，適用于VQA和圖像字幕。
可口可樂：橋接gap
可口架構(gòu)：

脫鉤的解碼器

：>

較低解碼器：生成一個單峰文本表示對比度學(xué)習(xí)（使用[cls]令牌）。

上的解碼器：生成用于生成學(xué)習(xí)的多模式圖像文本表示。兩個解碼器都使用因果掩蔽。

對比目標：學(xué)會在共享向量空間中群集相關(guān)的圖像文本對并分開無關(guān)的圖像對。使用單個合并的圖像嵌入。

生成目標：使用細顆粒的圖像表示（256維序列）和交叉模式的注意來預(yù)測文本自動加注。

結(jié)論：
>可可代表圖像文本基礎(chǔ)模型中的顯著進步。其組合方法可以增強各種任務(wù)的性能，為下游應(yīng)用程序提供多功能工具。為了進一步了解先進的深度學(xué)習(xí)概念，請考慮Datacamp使用KERAS課程的高級深度學(xué)習(xí)。

進一步讀?。?ance>

>從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺模型
>圖像文本預(yù)訓(xùn)練與對比字幕

以上是可口可樂：對比字幕是圖像文本基礎(chǔ)模型在視覺上解釋的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻，版權(quán)歸原作者所有，本站不承擔相應(yīng)法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn