国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 硬體教學(xué) 硬體測(cè)評(píng) 輕鬆拿捏 4K 高畫質(zhì)影像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

輕鬆拿捏 4K 高畫質(zhì)影像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

Apr 23, 2024 am 08:04 AM
git composer 解析度 效果 雷達(dá) 美圖 香港中文大學(xué) lab

一個(gè)可以自動(dòng)分析 PDF、網(wǎng)頁、海報(bào)、Excel 圖表內(nèi)容的大模型,對(duì)於打工人來說簡(jiǎn)直不要太方便。

上海 AI Lab,香港中文大學(xué)等研究機(jī)構(gòu)提出的 InternLM-XComposer2-4KHD(簡(jiǎn)寫為 IXC2-4KHD)模型讓這成為了現(xiàn)實(shí)。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

相比於其他多模態(tài)大模型不超過1500x1500 的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長(zhǎng)寬比和336 像素~4K 動(dòng)態(tài)分辨率變化。

發(fā)布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

輕鬆拿捏4K 影像理解

先來看效果~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個(gè)模型在MMBench 上的表現(xiàn)最高。

要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現(xiàn)在一個(gè)相當(dāng)複雜的雷達(dá)圖中。面對(duì)這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達(dá)圖中的訊息,正確回答問題。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

面對(duì)更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個(gè)部分,並準(zhǔn)確說明了每個(gè)部分包含的文字訊息內(nèi)容。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

隨後,研究人員也在16 個(gè)多模態(tài)大模式評(píng)測(cè)指標(biāo)上全面測(cè)試了IXC2-4KHD 的能力,其中5 項(xiàng)評(píng)測(cè)(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。

僅使用7B 參數(shù)量,IXC2-4KHD 在其中10 項(xiàng)評(píng)測(cè)取得了媲美甚至超越GPT4V 和Gemini Pro 的結(jié)果,展現(xiàn)了不局限於高分辨率圖像理解,而是對(duì)各種任務(wù)和場(chǎng)景的泛用能力。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

△僅 7B 參數(shù)量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實(shí)現(xiàn) 4K 動(dòng)態(tài)解析度?

為了實(shí)現(xiàn)4K 動(dòng)態(tài)解析度的目標(biāo),IXC2-4KHD 包含了三個(gè)主要設(shè)計(jì):

(1)動(dòng)態(tài)解析度訓(xùn)練:

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

△4K 解析度影像處理策略

在IXC2-4KHD 的框架中,輸入影像在保持長(zhǎng)寬比的情況下,隨機(jī)放大到介於輸入面積和最大面積(不超過55x336x336,等價(jià)於3840 x1617 解析度)的一個(gè)中間尺寸。

隨後,將影像自動(dòng)切塊成多個(gè) 336x336 的區(qū)域,分別抽取視覺特徵。這種動(dòng)態(tài)解析度的訓(xùn)練策略可以讓模型適應(yīng)任意解析度的視覺輸入,同時(shí)也彌補(bǔ)了高解析度訓(xùn)練資料不足的問題。

實(shí)驗(yàn)表明,隨著動(dòng)態(tài)解析度上限的增加,模型在高解析度影像理解任務(wù)(InfographicVQA、DocVQA、TextVQA)上實(shí)現(xiàn)了穩(wěn)定的效能提升,並且在4K 解析度仍然未達(dá)到上界,展現(xiàn)了更高解析度進(jìn)一步擴(kuò)展的潛力。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

(2)加入切塊佈局資訊:

為了讓模型能夠適應(yīng)變化豐富的動(dòng)態(tài)分辨率,研究人員發(fā)現(xiàn)需要將切塊佈局資訊作為額外的輸入。為了實(shí)現(xiàn)這個(gè)目的,研究人員採取了一個(gè)簡(jiǎn)單的策略:一個(gè)特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實(shí)驗(yàn)表明,添加切塊佈局信息,對(duì)於變化幅度比較小的動(dòng)態(tài)分辨率訓(xùn)練(HD9 代表切塊區(qū)域個(gè)數(shù)不超過9)影響不大,而對(duì)於動(dòng)態(tài)4K 分辨率訓(xùn)練則可以帶來顯著的性能提升。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

(3)推理階段擴(kuò)展解析度

研究人員也發(fā)現(xiàn),使用動(dòng)態(tài)解析度的模型,可以在推理階段透過增加最大切塊上限直接擴(kuò)展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個(gè))的訓(xùn)練模型直接使用 HD16 進(jìn)行測(cè)試,可以在 InfographicVQA 上觀察到高達(dá) 8% 的效能提升。

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

IXC2-4KHD 將多模態(tài)大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個(gè)數(shù)來支持更大圖像輸入的策略遇到了計(jì)算代價(jià)和顯存的瓶頸,因此他們計(jì)劃提出更有效率的策略在未來實(shí)現(xiàn)更高解析度的支援。

論文連結(jié):

https://arxiv.org/pdf/2404.06512.pdf

專案連結(jié):

##https://github.com /InternLM/InternLM-XComposer

— 完—

投稿請(qǐng)寄電子郵件到:

ai@qbitai.com

##標(biāo)題註明,告訴我們:

你是誰,從哪裡來,投稿內(nèi)容

附上論文/ 專案主頁鏈接,以及聯(lián)絡(luò)方式哦

我們會(huì)(盡量)及時(shí)回覆你

 輕松拿捏 4K 高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便 點(diǎn)這裡追蹤我,記得標(biāo)星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進(jìn)展日日相見~

#

以上是輕鬆拿捏 4K 高畫質(zhì)影像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1502
276
PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時(shí)文件後調(diào)用STTAPI(如Google或百度語音識(shí)別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語音合成)將回復(fù)轉(zhuǎn)為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個(gè)流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯(cuò)誤處理,確保各環(huán)節(jié)無縫銜接。

如何用PHP結(jié)合AI做圖像生成 PHP自動(dòng)生成藝術(shù)作品 如何用PHP結(jié)合AI做圖像生成 PHP自動(dòng)生成藝術(shù)作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進(jìn)行AI圖像處理,而是通過API集成,因?yàn)樗瞄L(zhǎng)Web開發(fā)而非計(jì)算密集型任務(wù),API集成能實(shí)現(xiàn)專業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請(qǐng)求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊(duì)列處理耗時(shí)任務(wù)、健壯錯(cuò)誤處理與重試機(jī)制、圖像存儲(chǔ)與展示;3.常見挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗(yàn)差、安全風(fēng)險(xiǎn)和數(shù)據(jù)管理難,應(yīng)對(duì)策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲(chǔ)與內(nèi)容審核、雲(yún)存

PHP集成AI智能圖片識(shí)別 PHP視覺內(nèi)容自動(dòng)標(biāo)籤化 PHP集成AI智能圖片識(shí)別 PHP視覺內(nèi)容自動(dòng)標(biāo)籤化 Jul 25, 2025 pm 05:42 PM

將AI視覺理解能力融入PHP應(yīng)用的核心思路是利用第三方AI視覺服務(wù)API,PHP負(fù)責(zé)上傳圖片、發(fā)送請(qǐng)求、接收并解析JSON結(jié)果,將標(biāo)簽存入數(shù)據(jù)庫;2.圖片自動(dòng)標(biāo)簽化能顯著提升效率、增強(qiáng)內(nèi)容可搜索性、優(yōu)化管理和推薦,使視覺內(nèi)容從“死數(shù)據(jù)”變?yōu)椤盎顢?shù)據(jù)”;3.選擇AI服務(wù)需根據(jù)功能匹配度、準(zhǔn)確率、成本、易用性、地域延遲和數(shù)據(jù)合規(guī)性綜合判斷,推薦從GoogleCloudVision等通用服務(wù)起步;4.常見挑戰(zhàn)包括網(wǎng)絡(luò)超時(shí)、密鑰安全、錯(cuò)誤處理、圖片格式限制、成本控制、異步處理需求及AI識(shí)別準(zhǔn)確率問題,需

什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點(diǎn)及未來增長(zhǎng)潛力概述 什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點(diǎn)及未來增長(zhǎng)潛力概述 Jul 24, 2025 pm 11:54 PM

目錄關(guān)鍵要點(diǎn)什麼是UselessCoin:概述和主要特徵USELESS的主要特點(diǎn)UselessCoin(USELESS)未來價(jià)格展望:2025年及以後什麼影響UselessCoin的價(jià)格?未來價(jià)格前景UselessCoin(USELESS)的核心功能及其重要性UselessCoin(USELESS)如何運(yùn)作以及它帶來的好處UselessCoin的工作原理主要優(yōu)點(diǎn)關(guān)於USELESSCoin的公司本組織的伙伴關(guān)係他們?nèi)绾螀f(xié)同工

如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運(yùn)行環(huán)境變量添加說明 如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運(yùn)行環(huán)境變量添加說明 Jul 25, 2025 pm 08:33 PM

PHP設(shè)置環(huán)境變量主要有三種方式:1.通過php.ini全局配置;2.通過Web服務(wù)器(如Apache的SetEnv或Nginx的fastcgi_param)傳遞;3.在PHP腳本中使用putenv()函數(shù)。其中,php.ini適用於全局且不常變的配置,Web服務(wù)器配置適用於需要隔離的場(chǎng)景,putenv()適用於臨時(shí)性的變量。持久化策略包括配置文件(如php.ini或Web服務(wù)器配置)、.env文件配合dotenv庫加載、CI/CD流程中動(dòng)態(tài)注入變量。安全管理敏感信息應(yīng)避免硬編碼,推薦使用.en

成品python大片在線觀看入口 python免費(fèi)成品網(wǎng)站大全 成品python大片在線觀看入口 python免費(fèi)成品網(wǎng)站大全 Jul 23, 2025 pm 12:36 PM

本文為您精選了多個(gè)頂級(jí)的Python“成品”項(xiàng)目網(wǎng)站與高水平“大片”級(jí)學(xué)習(xí)資源入口。無論您是想尋找開發(fā)靈感、觀摩學(xué)習(xí)大師級(jí)的源代碼,還是系統(tǒng)性地提昇實(shí)戰(zhàn)能力,這些平臺(tái)都是不容錯(cuò)過的寶庫,能幫助您快速成長(zhǎng)為Python高手。

如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務(wù)組合 如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務(wù)組合 Jul 25, 2025 pm 08:24 PM

Homebrew在Mac環(huán)境搭建中的核心作用是簡(jiǎn)化軟件安裝與管理。 1.Homebrew自動(dòng)處理依賴關(guān)係,將復(fù)雜的編譯安裝流程封裝為簡(jiǎn)單命令;2.提供統(tǒng)一的軟件包生態(tài),確保軟件安裝位置與配置標(biāo)準(zhǔn)化;3.集成服務(wù)管理功能,通過brewservices可便捷啟動(dòng)、停止服務(wù);4.便於軟件升級(jí)與維護(hù),提升系統(tǒng)安全性與功能性。

Vue成品資源網(wǎng)站免費(fèi)入口 完整Vue成品永久在線觀看 Vue成品資源網(wǎng)站免費(fèi)入口 完整Vue成品永久在線觀看 Jul 23, 2025 pm 12:39 PM

本文為Vue開發(fā)者和學(xué)習(xí)者精選了一系列頂級(jí)的成品資源網(wǎng)站。通過這些平臺(tái),你可以免費(fèi)在線瀏覽、學(xué)習(xí)甚至復(fù)用海量高質(zhì)量的Vue完整項(xiàng)目,從而快速提升開發(fā)技能和項(xiàng)目實(shí)踐能力。

See all articles