国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
挑戰(zhàn)一:高解析度圖片文字辨識
#△圖1:DocOwl 1.5模型結構圖
△圖2:形狀適應的切圖模塊。
挑戰(zhàn)二:通用文檔結構理解
挑戰(zhàn)三:指令遵循
挑戰(zhàn)四:外部知識引入
首頁 科技週邊 人工智慧 阿里7B多模態(tài)文件理解大模型拿下新SOTA

阿里7B多模態(tài)文件理解大模型拿下新SOTA

Apr 02, 2024 am 11:31 AM
ai 數(shù)據(jù) 開源 鍵值對

多模態(tài)文件理解能力新SOTA!

阿里mPLUG團隊發(fā)布最新開源工作mPLUG-DocOwl 1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰(zhàn),提出了一系列解決方案。

話不多說,先來看效果。

複雜結構的圖表一鍵辨識轉換為Markdown格式:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#不同樣式的圖表都可以:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#更細節(jié)的文字辨識與定位也能輕鬆搞定:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#還能對文件理解給出詳細解釋:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#要知道,「文檔理解」目前是大語言模型實現(xiàn)落地的一個重要場景,市面上有很多輔助文檔閱讀的產品,有的主要透過OCR系統(tǒng)進行文字識別,配合LLM進行文字理解可以達到不錯的文件理解能力。

不過,由於文件圖片類別多元、文字豐富且排版複雜,難以實現(xiàn)圖表、資訊圖表、網(wǎng)頁等結構複雜圖片的一般理解。

目前爆火的多模態(tài)大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強的文檔圖片理解能力,然而開源模型在這個方向上的進展緩慢。

而阿里新研究mPLUG-DocOwl 1.5在10個文檔理解基準上拿下SOTA,5個資料集上提升超過10個點,部分資料集上超過智譜17.3B的CogAgent,在DocVQA上達到82.2的效果。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

除了具備基準上簡單回答的能力,透過少量「詳細解釋」(reasoning)資料的微調,DocOwl 1.5-Chat也能具備多模態(tài)文件領域詳細解釋的能力,具有很大的應用潛力。

阿里mPLUG團隊從2023年7月份開始投入多模態(tài)文件理解的研究,陸續(xù)發(fā)布了mPLUG-DocOwl、 UReader、mPLUG-PaperOwl、mPLUG-DocOwl 1.5,開源了一系列文件理解大模型和訓練資料。

本文從最新工作mPLUG-DocOwl 1.5出發(fā),剖析「多模態(tài)文件理解」領域的關鍵挑戰(zhàn)和有效解決方案。

挑戰(zhàn)一:高解析度圖片文字辨識

區(qū)分於一般圖片,文件圖片的特點在於形狀大小多樣化,其可以包含A4大小的文件圖、短而寬的表格圖、長而窄的手機網(wǎng)頁截圖以及隨手拍攝的場景圖等等,解析度的分佈十分廣泛。

主流的多模態(tài)大模型編碼圖片時,往往直接縮放圖片的大小,例如mPLUG-Owl2和QwenVL縮放到448x448,LLaVA 1.5縮放到336x336。

簡單的縮放文件圖片會導致圖片中的文字模糊形變從而不可辨認。

為了處理文件圖片,mPLUG-DocOwl 1.5延續(xù)了其前序工作UReader的切圖做法,模型結構如圖1所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#△圖1:DocOwl 1.5模型結構圖

UReader最早提出在已有多模態(tài)大模型的基礎上,透過無參數(shù)的形狀適應切圖模組(Shape -adaptive Cropping Module)得到一系列子圖,每張子圖透過低解析度編碼器進行編碼,最後透過語言模型關聯(lián)子圖直接的語意。

此切圖策略可以最大程度利用已有通用視覺編碼器(例如CLIP ViT-14/L)的能力進行文件理解,大幅減少重新訓練高分辨率視覺編碼器的代價。形狀適應的切圖模組如圖2所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA
△圖2:形狀適應的切圖模塊。

挑戰(zhàn)二:通用文檔結構理解

對于不依賴OCR系統(tǒng)的文檔理解來說,識別文字是基本能力,要實現(xiàn)文檔內容的語義理解、結構理解十分重要,例如理解表格內容需要理解表頭和行列的對應關系,理解圖表需要理解線圖、柱狀圖、餅圖等多樣化結構,理解合同需要理解日期署名等多樣化的鍵值對。

mPLUG-DocOwl 1.5著力于解決通用文檔等結構理解能力,通過模型結構的優(yōu)化和訓練任務的增強實現(xiàn)了顯著更強的通用文檔理解能力。

結構方面,如圖1所示,mPLUG-DocOwl 1.5放棄了mPLUG-Owl/mPLUG-Owl2中Abstractor的視覺語言連接模塊,采用基于“卷積 全連接層”的H-Reducer進行特征聚合以及特征對齊

相比于基于learnable queries的Abstractor,H-Reducer保留了視覺特征之間的相對位置關系,更好的將文檔結構信息傳遞給語言模型。

相比于保留視覺序列長度的MLP,H-Reducer通過卷積大幅縮減了視覺特征數(shù)量,使得LLM可以更高效地理解高分辨率文檔圖片。

考慮到大部分文檔圖片中文字優(yōu)先水平排布,水平方向的文字語義具有連貫性,H-Reducer中采用1x4的卷積形狀和步長。論文中,作者通過充分的對比實驗證明了H-Reducer在結構理解方面的優(yōu)越性以及1x4是更通用的聚合形狀。

訓練任務方面,mPLUG-DocOwl 1.5為所有類型的圖片設計了統(tǒng)一結構學習(Unified Structure Learning)任務,如圖3所示。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖3:統(tǒng)一結構學習

Unified Structure Learning既包括了全局的圖片文字解析,又包含了多粒度的文字識別和定位。

在全局圖片文字解析任務中,對于文檔圖片和網(wǎng)頁圖片,采用空格和換行的形式可以最通用地表示文字的結構;對于表格,作者在Markdown語法的基礎上引入表示多行多列的特殊字符,兼顧了表格表示的簡潔性和通用性;對于圖表,考慮到圖表是表格數(shù)據(jù)的可視化呈現(xiàn),作者同樣采用Markdown形式的表格作為圖表的解析目標;對于自然圖,語義描述和場景文字同等重要,因此采用圖片描述拼接場景文字的形式作為解析目標。

在“文字識別和定位”任務中,為了更貼合文檔圖片理解,作者設計了單詞、詞組、行、塊四種粒度的文字識別和定位,bounding box采用離散化的整數(shù)數(shù)字表示,范圍0-999。

為了支持統(tǒng)一的結構學習,作者構建了一個全面的訓練集DocStruct4M,涵蓋了文檔/網(wǎng)頁、表格、圖表、自然圖等不同類型的圖片。

經過統(tǒng)一結構學習,DocOwl 1.5具備多領域文檔圖片的結構化解析和文字定位能力。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖4: 結構化文字解析

如圖4和圖5所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖5: 多粒度文字識別和定位

挑戰(zhàn)三:指令遵循

“指令遵循”(Instruction Following)要求模型基于基礎的文檔理解能力,根據(jù)用戶的指令執(zhí)行不同的任務,例如信息抽取、問答、圖片描述等。

延續(xù)mPLUG-DocOwl的做法,DocOwl 1.5將多個下游任務統(tǒng)一為指令問答的形式,在統(tǒng)一的結構學習之后,通過多任務聯(lián)合訓練的形式得到一個文檔領域的通用模型(generalist)。

此外,為了使得模型具備詳細解釋的能力,mPLUG-DocOwl曾嘗試引入純文本指令微調數(shù)據(jù)進行聯(lián)合訓練,有一定效果但并不理想。

在DocOwl 1.5中,作者基于下游任務的問題,通過GPT3.5以及GPT4V構建了少量的詳細解釋數(shù)據(jù)(DocReason25K)。

透過聯(lián)合文件下游任務和DocReason25K進行訓練,DocOwl 1.5-Chat既可以在基準上實現(xiàn)更優(yōu)的效果:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖6:文檔理解Benchmark評測

又能給予詳細的解釋:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#△圖7:文件理解詳細解釋

挑戰(zhàn)四:外部知識引入

文件圖片由於資訊的豐富性,進行理解的時候往往需要額外的知識引入,例如特殊領域的專業(yè)名詞及其意義等等。

為了研究如何引入外部知識進行更好的文檔理解,mPLUG團隊著手於論文領域提出了mPLUG-PaperOwl,構建了一個高品質論文圖表分析資料集M-Paper,涉及447k的高清論文圖表。

該資料中為論文中的圖表提供了上下文作為外部知識來源,並且設計了「要點」(outline)作為圖表分析的控制訊號,幫助模型更好地掌握用戶的意圖。

基於UReader,作者在M-Paper上微調得到mPLUG-PaperOwl,展現(xiàn)了初步的論文圖表分析能力,如圖8所示。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖8:論文圖表分析

mPLUG-PaperOwl目前只是引入外部知識進文檔理解的初步嘗試,仍然面臨著領域局限性、知識來源單一等問題需要進一步解決。

總的來說,本文從最近發(fā)布的7B最強多模態(tài)文檔理解大模型mPLUG-DocOwl 1.5出發(fā),總結了不依賴OCR的情況下,進行多模態(tài)文檔理解的關鍵四個關鍵挑戰(zhàn)(“高解析度圖片文字識別”,“通用文件結構理解”,“指令遵循”, “外部知識引入” )和阿里巴巴mPLUG團隊給出的解決方案。

儘管mPLUG-DocOwl 1.5大幅提升了開源模型的文檔理解表現(xiàn),其距離閉源大模型以及現(xiàn)實需求仍然有較大差距,在自然場景中文字識別、數(shù)學計算、通用型等方面仍然有進步空間。

mPLUG團隊會進一步優(yōu)化DocOwl的效能並進行開源,歡迎大家持續(xù)關注和友好討論!

GitHub連結:https://github.com/X-PLUG/mPLUG-DocOwl
論文連結:https://arxiv.org/abs/2403.12895

以上是阿里7B多模態(tài)文件理解大模型拿下新SOTA的詳細內容。更多資訊請關注PHP中文網(wǎng)其他相關文章!

本網(wǎng)站聲明
本文內容由網(wǎng)友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1502
276
以太坊是什麼幣?以太坊ETH獲得的方式有哪些? 以太坊是什麼幣?以太坊ETH獲得的方式有哪些? Jul 31, 2025 pm 11:00 PM

以太坊是一個基於智能合約的去中心化應用平臺,其原生代幣ETH可通過多種方式獲取。 1、通過Binance必安、歐意ok等中心化平臺註冊賬戶、完成KYC認證並用穩(wěn)定幣購買ETH;2、通過去中心化平臺連接數(shù)字儲存,使用穩(wěn)定幣或其他代幣直接兌換ETH;3、參與網(wǎng)絡質押,可選擇獨立質押(需32個ETH)、流動性質押服務或在中心化平臺一鍵質押以獲取獎勵;4、通過為Web3項目提供服務、完成任務或獲得空投等方式賺取ETH。建議初學者從主流中心化平臺入手,逐步過渡到去中心化方式,並始終重視資產安全與自主研究,以

幣圈免費行情網(wǎng)站怎麼選? 2025年最全測評 幣圈免費行情網(wǎng)站怎麼選? 2025年最全測評 Jul 29, 2025 pm 06:36 PM

2025年最適合查詢穩(wěn)定幣行情的免費工具依次為:1. 幣安,數(shù)據(jù)權威、交易對豐富,集成TradingView圖表適合技術分析;2. 歐易,界面清晰、功能整合強,支持Web3賬戶與DeFi一站式操作;3. CoinMarketCap,收錄幣種多,穩(wěn)定幣板塊可查看市值排名與脫錨情況;4. CoinGecko,數(shù)據(jù)維度全面,提供信任分數(shù)與社區(qū)活躍度指標,立場中立;5. 火幣(HTX),行情穩(wěn)定、操作友好,適合主流資產查詢;6. Gate.io,新幣與小眾幣種收錄最快,是挖掘潛力項目的首選;7. Tra

Ethena財庫策略:穩(wěn)定幣第三帝國的崛起 Ethena財庫策略:穩(wěn)定幣第三帝國的崛起 Jul 30, 2025 pm 08:12 PM

目錄雙幣系統(tǒng)大逃殺真實採用仍未發(fā)生結語2023年8月,MakerDAO生態(tài)借貸協(xié)議Spark給出$DAI8%的年化收益,隨后孫割分批進入,累計投入23萬枚$stETH,最高佔Spark存款量15%以上,逼得MakerDAO緊急提案,把利率下調到5%。 MakerDAO的本意是“補貼”$DAI的使用率,差點變成孫宇晨的SoloYield。 2025年7月,Ethe

幣安Treehouse(TREE幣)是什麼?即將上線的Treehouse項目概述,代幣經濟與未來發(fā)展分析 幣安Treehouse(TREE幣)是什麼?即將上線的Treehouse項目概述,代幣經濟與未來發(fā)展分析 Jul 30, 2025 pm 10:03 PM

目錄什麼是Treehouse(TREE)? Treehouse(TREE)如何運作? Treehouse產品tETHDOR——分散報價利率GoNuts積分系統(tǒng)Treehouse亮點TREE代幣和代幣經濟學概述2025年第三季度路線圖開發(fā)團隊、投資者和合作夥伴Treehouse創(chuàng)始團隊投資基金夥伴總結隨著DeFi的不斷擴張,固定收益產品的需求日益增長,其作用類似於債券在傳統(tǒng)金融市場中的作用。然而,在區(qū)塊鏈上構建

以太坊(ETH) NFT 七日銷量近1.6億美元,貸款機構借助 World ID 推出無擔保加密貸款 以太坊(ETH) NFT 七日銷量近1.6億美元,貸款機構借助 World ID 推出無擔保加密貸款 Jul 30, 2025 pm 10:06 PM

目錄加密市場全景掘金熱門代幣VINEVine( 114.79%,流通市值1.44億美元)ZORAZora( 16.46%,流通市值2.9億美元)NAVXNAVIProtocol( 10.36%,流通市值3,576.24萬美元)Alpha解讀過去7天以太坊鏈上NFT銷售額近1.6億美元,CryptoPunks居第一去中心化證明者網(wǎng)絡Succinct推出Succinct基金會,或為代幣TGE

索拉納幣(Solana)與 Base幣 創(chuàng)始人開啟論戰(zhàn):Zora 上的內容有"基本價值" 索拉納幣(Solana)與 Base幣 創(chuàng)始人開啟論戰(zhàn):Zora 上的內容有"基本價值" Jul 30, 2025 pm 09:24 PM

一場關於“創(chuàng)作者代幣”價值的唇槍舌戰(zhàn),席捲了加密社交圈。 Base與Solana兩大公鏈掌舵人罕見正面交鋒,圍繞ZORA和Pump.fun展開激烈辯論,瞬間點燃CryptoTwitter的討論熱潮。這場火藥味十足的對峙,究竟從何而來?我們來一探究竟。爭議爆發(fā):SterlingCrispin對Zora發(fā)難風波的導火索,是DelComplex研究員SterlingCrispin在社交平臺公開砲轟Zora。 Zora是Base鏈上的社交協(xié)議,主打將用戶主頁與內容代幣化

Zircuit(ZRC幣)是什麼?如何運作?ZRC項目概述,代幣經濟與前景分析 Zircuit(ZRC幣)是什麼?如何運作?ZRC項目概述,代幣經濟與前景分析 Jul 30, 2025 pm 09:15 PM

目錄什麼是ZircuitZircuit如何運作Zircuit的主要特點混合架構AI安全EVM兼容性安全原生橋Zircuit積分Zircuit質押什麼是Zircuit代幣(ZRC)Zircuit(ZRC)幣價格預測ZRC幣怎麼買?結語近年來,為以太坊(ETH)Layer1網(wǎng)絡提供服務的Layer2區(qū)塊鏈平臺的利基市場蓬勃發(fā)展,主要原因是網(wǎng)絡擁堵、手續(xù)費高和可擴展性差。其中許多平臺使用上卷技術,鏈下處理的多個交易批

為什麼幣安賬號註冊失???原因與解決方案 為什麼幣安賬號註冊失???原因與解決方案 Jul 31, 2025 pm 07:09 PM

幣安賬號註冊失敗主要由地區(qū)IP封鎖、網(wǎng)絡異常、KYC認證失敗、賬戶重複、設備兼容問題及系統(tǒng)維護導致,1使用非受限地區(qū)節(jié)點並確保網(wǎng)絡穩(wěn)定;2提交清晰完整的證件信息並匹配國籍;3採用未綁定過的郵箱註冊;4清理瀏覽器緩存或更換設備;5避開維護時段並關注官方公告;6註冊後立即啟用2FA、地址白名單與反釣魚碼,可實現(xiàn)10分鐘內完成註冊並提升安全性達90%以上,最終構建合規(guī)與安全閉環(huán)。

See all articles