国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
現(xiàn)在,我們的圖像已準(zhǔn)備好推理。
結(jié)論
首頁(yè) 科技周邊 人工智能 Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

Feb 28, 2025 pm 04:32 PM

>從賬單收據(jù)中提取和分類費(fèi)用。

    >執(zhí)行光學(xué)特征識(shí)別(OCR)以檢索關(guān)鍵信息。
  • >根據(jù)提供的圖像總結(jié)支出。
  • >我們的重點(diǎn)是構(gòu)建財(cái)務(wù)見解工具,但您可以使用此博客中所學(xué)的知識(shí)來(lái)探索其他Paligemma 2 Mix的用例,例如圖像細(xì)分,對(duì)象檢測(cè)和問(wèn)題答案。
  • >
  • 什么是paligemma 2混合?
> Paligemma 2 Mix是一種高級(jí)視覺語(yǔ)言模型(VLM),將圖像和文本作為輸入處理并生成基于文本的輸出。它旨在在支持多種語(yǔ)言的同時(shí)處理各種多模式AI任務(wù)。

>

paligemma 2專為各種視覺語(yǔ)言任務(wù)而設(shè)計(jì),包括圖像和簡(jiǎn)短的視頻字幕,視覺問(wèn)題答案,光學(xué)特征識(shí)別(OCR),對(duì)象檢測(cè)和分割。

>

>圖中使用的圖像的來(lái)源:google

paligemma 2混合模型設(shè)計(jì)用于:> Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

>圖像和簡(jiǎn)短視頻字幕:生成靜態(tài)圖像和簡(jiǎn)短視頻的準(zhǔn)確和上下文感知字幕。

>視覺詢問(wèn)答案(VQA):根據(jù)視覺內(nèi)容分析圖像并回答基于文本的問(wèn)題。

>光學(xué)特征識(shí)別(OCR):從圖像中提取和解釋文本,使其可用于文檔,收據(jù)和掃描材料。
    >對(duì)象檢測(cè)和分割:它在圖像中標(biāo)識(shí),標(biāo)簽和片段對(duì)象進(jìn)行結(jié)構(gòu)化分析。
  • >多語(yǔ)言支持:該模型還可以以多種語(yǔ)言以全局應(yīng)用程序?yàn)槲谋旧珊屠斫狻?li>
  • >您可以在官方發(fā)行文章中找到有關(guān)Paligemma 2混合模型的更多信息。?
  • 項(xiàng)目概述:Bill Scanner和Paligemma 2 Mix
  • 的支出分析儀
  • >讓我們概述我們要采取的主要步驟:
    1. 加載并準(zhǔn)備數(shù)據(jù)集:該過(guò)程是從加載和準(zhǔn)備收據(jù)圖像作為輸入開始的。
    2. 。
    3. >初始化paligemma 2混合模型:我們配置并加載用于處理視覺語(yǔ)言任務(wù)的模型。
    4. >進(jìn)程輸入圖像:然后,將圖像轉(zhuǎn)換為適當(dāng)?shù)母袷剑≧GB),并準(zhǔn)備它們進(jìn)行分析。
    5. 提取關(guān)鍵信息:執(zhí)行光學(xué)特征識(shí)別(OCR)以檢索總量。
    6. >對(duì)費(fèi)用進(jìn)行分類:將購(gòu)買分為雜貨,服裝,電子產(chǎn)品等類別。
    7. >
    8. 生成支出見解:我們總結(jié)了分類的費(fèi)用并生成支出分配圖。
    9. >構(gòu)建一個(gè)交互式gradio接口:最后,我們創(chuàng)建一個(gè)UI,用戶可以在其中上傳多個(gè)賬單,提取數(shù)據(jù)并以視覺上的方式分析支出。
    >步驟1:先決條件

    >在開始之前,讓我們確保我們安裝了以下工具和庫(kù):

    python 3.8
    • >火炬
    • 變形金剛
    • pil
    • matplotlib
    • gradio
    • 運(yùn)行以下命令以安裝必要的依賴項(xiàng):
    >

    一旦安裝了上述依賴項(xiàng),請(qǐng)運(yùn)行以下導(dǎo)入命令:>
    pip install gradio -U bitsandbytes -U transformers -q

    >步驟2:模型初始化

    import gradio as gr
    import torch
    import pandas as pd
    import matplotlib.pyplot as plt
    from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
    from transformers import BitsAndBytesConfig
    from PIL import Image
    import re
    >我們使用量化配置并加載Paligemma 2混合模型以優(yōu)化性能。對(duì)于此演示,我們將使用448 x 448輸入圖像分辨率的10B參數(shù)模型。您需要至少具有40GB內(nèi)存(COLAB配置)的T4 GPU來(lái)運(yùn)行此模型。?

    > bitsandbytes量化有助于減少記憶使用量的同時(shí)保持性能,從而可以在有限的GPU資源上運(yùn)行大型模型。在此實(shí)現(xiàn)中,我們使用4位量化來(lái)進(jìn)一步優(yōu)化內(nèi)存效率。

    >我們通過(guò)傳遞模型ID和量化配置,使用來(lái)自變形金剛庫(kù)的PaligemmaforCongengergeneration類加載模型。同樣,我們加載處理器,該處理器將輸入預(yù)處理到張量中之前,然后將其傳遞給模型。
    device = "cuda" if torch.cuda.is_available() else "cpu"
    # Model setup
    model_id = "google/paligemma2-10b-mix-448" 
    bnb_config = BitsAndBytesConfig(
        load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
        llm_int8_threshold=6.0,
    )
    
    # Load model with quantization
    model = PaliGemmaForConditionalGeneration.from_pretrained(
        model_id, quantization_config=bnb_config
    ).eval()
    
    # Load processor
    processor = PaliGemmaProcessor.from_pretrained(model_id)
    # Print success message
    print("Model and processor loaded successfully!")
    步驟3:圖像處理

    >裝載模型后,我們將圖像傳遞到模型之前對(duì)圖像進(jìn)行處理以維護(hù)圖像格式的兼容性和增益均勻性。我們將圖像轉(zhuǎn)換為RGB格式:

    現(xiàn)在,我們的圖像已準(zhǔn)備好推理。

    >

    >步驟4:推理使用paligemma

    def ensure_rgb(image: Image.Image) -> Image.Image:
        if image.mode != "RGB":
            image = image.convert("RGB")
        return image
    >現(xiàn)在,我們?cè)O(shè)置了用于使用模型運(yùn)行推斷的主要功能。此功能將帶有輸入圖像和問(wèn)題,將它們整合到提示中,然后通過(guò)處理器將它們傳遞給模型。

    >步驟5:提取密鑰信息

    >現(xiàn)在我們已經(jīng)準(zhǔn)備好主函數(shù),我們將下一個(gè)從圖像中提取關(guān)鍵參數(shù) - 在我們的情況下,這些是總金額和商品類別。
    pip install gradio -U bitsandbytes -U transformers -q

    > extract_total_amount()函數(shù)處理圖像以使用OCR從收據(jù)中提取總量。它構(gòu)建了一個(gè)查詢(問(wèn)題),指示模型僅提取數(shù)值值,然后調(diào)用ask_model()函數(shù)以生成模型的響應(yīng)。?

    import gradio as gr
    import torch
    import pandas as pd
    import matplotlib.pyplot as plt
    from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
    from transformers import BitsAndBytesConfig
    from PIL import Image
    import re
    步驟6:分析信息

我們已經(jīng)準(zhǔn)備好所有關(guān)鍵功能,所以讓我們分析輸出。>

>上面的功能創(chuàng)建了一個(gè)餅圖,以可視化不同類別的支出分布。如果不存在有效的支出數(shù)據(jù),它將生成一個(gè)空白的圖形,并帶有表示“無(wú)支出數(shù)據(jù)”的消息。否則,它將創(chuàng)建帶有類別標(biāo)簽和百分比值的餅圖,確保比例且良好的可視化。

步驟6:同時(shí)分析多個(gè)賬單
device = "cuda" if torch.cuda.is_available() else "cpu"
# Model setup
model_id = "google/paligemma2-10b-mix-448" 
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
    llm_int8_threshold=6.0,
)

# Load model with quantization
model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=bnb_config
).eval()

# Load processor
processor = PaliGemmaProcessor.from_pretrained(model_id)
# Print success message
print("Model and processor loaded successfully!")

我們通常有多個(gè)賬單要分析,因此讓我們創(chuàng)建一個(gè)函數(shù)來(lái)同時(shí)處理所有賬單。

用于一次分析多個(gè)賬單,我們執(zhí)行以下步驟:>

初始化存儲(chǔ):我們創(chuàng)建用于存儲(chǔ)結(jié)果和圖像的列表,將total_spending設(shè)置為0,并為類別總計(jì)定義字典。

def ensure_rgb(image: Image.Image) -> Image.Image:
    if image.mode != "RGB":
        image = image.convert("RGB")
    return image
處理每個(gè)賬單:

  1. 打開并將圖像轉(zhuǎn)換為rgb。
  2. >將圖像附加到列表中。
從收據(jù)中提取總金額。
  • 在收據(jù)中對(duì)商品進(jìn)行分類。
  • 更新總支出和類別的總計(jì)。
  • >將提取的數(shù)據(jù)存儲(chǔ)在結(jié)果列表中。
  • 生成洞察力:我們創(chuàng)建一個(gè)支出分配餅圖以及總支出的摘要。
  • 返回結(jié)果:最后,我們返回圖像列表,帳單摘要的數(shù)據(jù)框架,總支出摘要和支出圖表。
>步驟7:構(gòu)建Gradio接口
  1. >現(xiàn)在,我們已經(jīng)制定了所有關(guān)鍵邏輯函數(shù)。接下來(lái),我們致力于使用Gradio構(gòu)建Interactive UI。
  2. >上面的代碼創(chuàng)建一個(gè)結(jié)構(gòu)化的gradio ui,其中具有用于多個(gè)圖像的文件上載程序,并為觸發(fā)處理。提交后,上傳帳單圖像顯示在畫廊中,提取的數(shù)據(jù)顯示在表中,總支出總結(jié)在文本中,并生成了支出分配餅圖。?
  3. 該功能將用戶輸入連接到process_multiple_bills()函數(shù),以確保無(wú)縫數(shù)據(jù)提取和可視化。最后,demo.launch()函數(shù)啟動(dòng)了用于實(shí)時(shí)互動(dòng)的Gradio應(yīng)用程序。

    >

    Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

    >我還嘗試了兩個(gè)基于圖像的賬單(亞馬遜購(gòu)物發(fā)票)的演示,并得到以下結(jié)果。

    注意:VLMS發(fā)現(xiàn)很難提取數(shù)字,這有時(shí)可能導(dǎo)致結(jié)果不正確。例如,它提取了以下第二賬單的錯(cuò)誤總金額。這是可以使用較大型號(hào)或簡(jiǎn)單地對(duì)現(xiàn)有模型進(jìn)行微調(diào)來(lái)糾正。

    >

    Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

    Paligemma 2 Mix:Demo OCR項(xiàng)目的指南

    結(jié)論

    在本教程中,我們使用Paligemma 2 Mix構(gòu)建了一個(gè)AI驅(qū)動(dòng)的多個(gè)Bill Scanner,這可以幫助我們從收據(jù)中提取和分類支出。我們使用Paligemma 2 Mix的視覺語(yǔ)言功能來(lái)進(jìn)行OCR和分類,以毫不費(fèi)力地分析支出見解。我鼓勵(lì)您將本教程適應(yīng)您自己的用例。?

以上是Paligemma 2 Mix:Demo OCR項(xiàng)目的指南的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,云依賴性和最近的“發(fā)現(xiàn)”功能

從采用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從采用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買,建立或合作伙伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) 生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司咨詢。Growth驅(qū)動(dòng)力的生成AI采用的激增比最樂(lè)觀的預(yù)測(cè)更具戲劇性。然后,

新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛采用和情感準(zhǔn)備之間的差距揭示了人類如何與越來(lái)越多的數(shù)字伴侶互動(dòng)。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場(chǎng)

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由于AI,那些日子是編號(hào)的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會(huì)導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI復(fù)雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

思科在美國(guó)2025 思科在美國(guó)2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來(lái)進(jìn)一步實(shí)現(xiàn)其野心。

See all articles