丰满少妇女人a毛片视频,成人无码视频,夫前人妻被灌醉侵犯在线

首頁

科技周邊

人工智能

介紹NVLM 1.0：NVIDIA的多模式LLM的方法

Joseph Gordon-Levitt

Apr 09, 2025 am 09:22 AM

NVIDIA的開創(chuàng)性NVLM 1.0：開源多模式LLM

本文深入研究了NVIDIA最近揭幕的NVLM 1.0，這是一個由開源，多模式大型語言模型（LLMS）組成的家族。這些模型在視覺任務(wù)上實現(xiàn)了最先進(jìn)的性能，與Llama 3-V 405B和InternVL 2（例如Llama 3-V 405B和InternVL 2）競爭。一個值得注意的功能是NVLM 1.0改進(jìn)的多型訓(xùn)練后的文本術(shù)性能，這是LLM Backbone的重大進(jìn)步。模型權(quán)重和代碼公開可用，從而促進(jìn)了社區(qū)的貢獻(xiàn)。

NVIDIA經(jīng)過精心比較了基于跨注意的模型（例如Flamingo）和僅解碼器的多模式LLM（例如LLAVA）。利用每個人的優(yōu)點和劣勢，他們開發(fā)了一種獨特的體系結(jié)構(gòu)，可提高訓(xùn)練效率和多模式推理能力。

介紹NVLM 1.0：NVIDIA的多模式LLM的方法

NVLM 1.0的主要功能：

開源多模式LLM家庭在視力語言和僅文本任務(wù)方面出色。
三種架構(gòu)變化：僅解碼器（NVLM-D），跨注意（NVLM-X）和混合動力（NVLM-H）。
OCR，多模式推理和高分辨率圖像處理中的出色性能。
保持純文本性能，解決多模型模型中的共同弱點。
強(qiáng)調(diào)預(yù)處理和監(jiān)督微調(diào)的高質(zhì)量和多樣化數(shù)據(jù)。
模型權(quán)重和代碼的開源可用性。

建筑創(chuàng)新和培訓(xùn)方法：

為了克服現(xiàn)有的多模式LLM（不一致的體系結(jié)構(gòu)比較，高分辨率圖像處理和僅文本性能降級）的限制??，NVLM 1.0引入了三個架構(gòu)：NVLM-D（單獨解碼器），NVLM-X（交叉注意）和NVLM-H（NVLM-H（hybrid））。所有這些都在同一精選的數(shù)據(jù)集上進(jìn)行了培訓(xùn)，提供了靈活性和性能。一種新穎的瓷磚設(shè)計改善了高分辨率圖像處理。訓(xùn)練過程涉及預(yù)處理（凍結(jié)視覺編碼器和LLM），然后對LLM和模態(tài)對準(zhǔn)模塊進(jìn)行監(jiān)督的微調(diào)（SFT）。這種方法加上對數(shù)據(jù)質(zhì)量而不是純粹的數(shù)量的關(guān)注，從而在各種任務(wù)中都能表現(xiàn)出良好的性能。

介紹NVLM 1.0：NVIDIA的多模式LLM的方法

性能和基準(zhǔn)：

與多個基準(zhǔn)上的領(lǐng)先模型相比，NVLM 1.0表現(xiàn)出競爭性或卓越的性能。 NVLM-D在OCR任務(wù)中表現(xiàn)出色，NVLM-H在多模式推理中閃耀，而NVLM-X具有具有高分辨率圖像的速度優(yōu)勢。至關(guān)重要的是，所有模型在多模式訓(xùn)練后保持或改善僅文本性能。

介紹NVLM 1.0：NVIDIA的多模式LLM的方法

訪問和利用NVLM-D 72B：

提供的代碼片段演示了如何使用擁抱面和變形金剛庫訪問和利用NVLM-D 72B模型，包括用于高效多GPU使用，圖像預(yù)處理，動態(tài)圖像瓷磚以及用于文本和基于圖像的對話的示例代碼的模型sharding。請注意，這是一個大型模型（150 GB）。

結(jié)論：

NVLM 1.0代表開源多模式LLM中的顯著飛躍。它的出色表現(xiàn)，建筑創(chuàng)新和對開源可訪問性的承諾使其成為研究人員和開發(fā)人員的寶貴資源。強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和僅文本功能的保留，請解決以前多模型模型的關(guān)鍵局限性。詳細(xì)的文檔和隨時可用的代碼促進(jìn)了社區(qū)內(nèi)部的進(jìn)一步研究和發(fā)展。

以上是介紹NVLM 1.0：NVIDIA的多模式LLM的方法的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn