国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 介紹NVLM 1.0:NVIDIA的多模式LLM的方法

介紹NVLM 1.0:NVIDIA的多模式LLM的方法

Apr 09, 2025 am 09:22 AM

NVIDIA的開創(chuàng)性NVLM 1.0:開源多模式LLM

本文深入研究了NVIDIA最近揭幕的NVLM 1.0,這是一個由開源,多模式大型語言模型(LLMS)組成的家族。這些模型在視覺任務(wù)上實現(xiàn)了最先進(jìn)的性能,與Llama 3-V 405B和InternVL 2(例如Llama 3-V 405B和InternVL 2)競爭。一個值得注意的功能是NVLM 1.0改進(jìn)的多型訓(xùn)練后的文本術(shù)性能,這是LLM Backbone的重大進(jìn)步。模型權(quán)重和代碼公開可用,從而促進(jìn)了社區(qū)的貢獻(xiàn)。

NVIDIA經(jīng)過精心比較了基于跨注意的模型(例如Flamingo)和僅解碼器的多模式LLM(例如LLAVA)。利用每個人的優(yōu)點和劣勢,他們開發(fā)了一種獨特的體系結(jié)構(gòu),可提高訓(xùn)練效率和多模式推理能力。

介紹NVLM 1.0:NVIDIA的多模式LLM的方法

NVLM 1.0的主要功能:

  • 開源多模式LLM家庭在視力語言和僅文本任務(wù)方面出色。
  • 三種架構(gòu)變化:僅解碼器(NVLM-D),跨注意(NVLM-X)和混合動力(NVLM-H)。
  • OCR,多模式推理和高分辨率圖像處理中的出色性能。
  • 保持純文本性能,解決多模型模型中的共同弱點。
  • 強(qiáng)調(diào)預(yù)處理和監(jiān)督微調(diào)的高質(zhì)量和多樣化數(shù)據(jù)。
  • 模型權(quán)重和代碼的開源可用性。

建筑創(chuàng)新和培訓(xùn)方法:

為了克服現(xiàn)有的多模式LLM(不一致的體系結(jié)構(gòu)比較,高分辨率圖像處理和僅文本性能降級)的限制??,NVLM 1.0引入了三個架構(gòu):NVLM-D(單獨解碼器),NVLM-X(交叉注意)和NVLM-H(NVLM-H(hybrid))。所有這些都在同一精選的數(shù)據(jù)集上進(jìn)行了培訓(xùn),提供了靈活性和性能。一種新穎的瓷磚設(shè)計改善了高分辨率圖像處理。訓(xùn)練過程涉及預(yù)處理(凍結(jié)視覺編碼器和LLM),然后對LLM和模態(tài)對準(zhǔn)模塊進(jìn)行監(jiān)督的微調(diào)(SFT)。這種方法加上對數(shù)據(jù)質(zhì)量而不是純粹的數(shù)量的關(guān)注,從而在各種任務(wù)中都能表現(xiàn)出良好的性能。

介紹NVLM 1.0:NVIDIA的多模式LLM的方法

性能和基準(zhǔn):

與多個基準(zhǔn)上的領(lǐng)先模型相比,NVLM 1.0表現(xiàn)出競爭性或卓越的性能。 NVLM-D在OCR任務(wù)中表現(xiàn)出色,NVLM-H在多模式推理中閃耀,而NVLM-X具有具有高分辨率圖像的速度優(yōu)勢。至關(guān)重要的是,所有模型在多模式訓(xùn)練后保持或改善僅文本性能。

介紹NVLM 1.0:NVIDIA的多模式LLM的方法介紹NVLM 1.0:NVIDIA的多模式LLM的方法介紹NVLM 1.0:NVIDIA的多模式LLM的方法

訪問和利用NVLM-D 72B:

提供的代碼片段演示了如何使用擁抱面和變形金剛庫訪問和利用NVLM-D 72B模型,包括用于高效多GPU使用,圖像預(yù)處理,動態(tài)圖像瓷磚以及用于文本和基于圖像的對話的示例代碼的模型sharding。請注意,這是一個大型模型(150 GB)。

結(jié)論:

NVLM 1.0代表開源多模式LLM中的顯著飛躍。它的出色表現(xiàn),建筑創(chuàng)新和對開源可訪問性的承諾使其成為研究人員和開發(fā)人員的寶貴資源。強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和僅文本功能的保留,請解決以前多模型模型的關(guān)鍵局限性。詳細(xì)的文檔和隨時可用的代碼促進(jìn)了社區(qū)內(nèi)部的進(jìn)一步研究和發(fā)展。

以上是介紹NVLM 1.0:NVIDIA的多模式LLM的方法的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1502
276
Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計理念和部署平臺的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是' new'及時的工程 上下文工程是' new'及時的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語言模型(LLM)互動的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基于Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,并添加了自然深度以及模擬運動(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡短的視頻卷軸,從而給人以踏入SCE的印象

7種AI代理的7種類型是什么? 7種AI代理的7種類型是什么? Jul 11, 2025 am 11:08 AM

想象一些復(fù)雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋,或者自動市場分析用于全球運營的企業(yè),或者智能系統(tǒng)管理大型車隊。

這些AI模型沒有學(xué)習(xí)語言,他們學(xué)習(xí)了策略 這些AI模型沒有學(xué)習(xí)語言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國王學(xué)院和牛津大學(xué)的研究人員的一項新研究分享了Openai,Google和Anthropic在基于迭代囚犯的困境基于的cutthroat競爭中一起投擲的結(jié)果。這是沒有的

隱藏的命令危機(jī):研究人員游戲AI將發(fā)布 隱藏的命令危機(jī):研究人員游戲AI將發(fā)布 Jul 13, 2025 am 11:08 AM

科學(xué)家發(fā)現(xiàn)了一種巧妙而令人震驚的方法來繞過系統(tǒng)。 2025年7月標(biāo)志著一項精心制作的戰(zhàn)略,研究人員將無形的指示插入其學(xué)術(shù)意見 - 這些秘密指令是尾巴

See all articles