国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ テクノロジー周辺機(jī)器 AI Paligemma 2ミックス:デモOCRプロジェクトを備えたガイド

Paligemma 2ミックス:デモOCRプロジェクトを備えたガイド

Feb 28, 2025 pm 04:32 PM

Paligemma 2 Mixは、Googleが開発したマルチモーダルAIモデルです。これは、PALIGEMMA Vision Language Model(VLM)の改善されたバージョンであり、Siglip VisionモデルとGemma 2言語(yǔ)モデルの高度な機(jī)能を統(tǒng)合しています。 このチュートリアルでは、Paligemma 2ミックスを使用してAI搭載の請(qǐng)求書スキャナーと支出アナライザーを構(gòu)築する方法を説明します。

請(qǐng)求書の領(lǐng)収書から費(fèi)用の抽出と分類

キー情報(bào)を取得するために光學(xué)文字認(rèn)識(shí)(OCR)を?qū)g行します。
    提供された畫像に基づいて支出を要約します。
  • 財(cái)務(wù)洞察ツールの構(gòu)築に焦點(diǎn)を當(dāng)てていますが、このブログで學(xué)んだことを使用して、畫像セグメンテーション、オブジェクト検出、質(zhì)問への回答など、パリゲンマ2ミックスの他のユースケースを探索できます。
  • Paligemma 2 Mixとは何ですか?
  • Paligemma 2 Mixは、畫像とテキストの両方を入力として処理し、テキストベースの出力を生成する高度なビジョン言語(yǔ)モデル(VLM)です。複數(shù)の言語(yǔ)をサポートしながら、多様なマルチモーダルAIタスクを処理するように設(shè)計(jì)されています。
  • Paligemma 2は、畫像と短いビデオキャプション、視覚的な質(zhì)問への回答、光學(xué)文字認(rèn)識(shí)(OCR)、オブジェクト検出、セグメンテーションなど、幅広いビジョン言語(yǔ)タスク用に設(shè)計(jì)されています。

図で使用されている畫像のソース:Google

paligemma 2ミックスモデルは、

用に設(shè)計(jì)されています

畫像と短いビデオキャプション:靜的畫像と短いビデオの正確でコンテキスト対応のキャプションを生成します。

視覚的な質(zhì)問応答(VQA):視覚コンテンツに基づいて畫像の分析とテキストベースの質(zhì)問に答える。

光學(xué)文字認(rèn)識(shí)(OCR):畫像からテキストを抽出して解釈し、ドキュメント、領(lǐng)収書、スキャンされた資料に役立ちます。 Paligemma 2ミックス:デモOCRプロジェクトを備えたガイドオブジェクトの検出とセグメンテーション:構(gòu)造化された分析のために畫像內(nèi)のオブジェクトを識(shí)別、ラベル、およびセグメント。

多言語(yǔ)サポート:モデルは、グローバルアプリケーションの複數(shù)の言語(yǔ)でのテキスト生成と理解を可能にします。

公式リリース記事で、Paligemma 2 Mixモデルに関する詳細(xì)情報(bào)を見つけることができます。?

プロジェクトの概要:Bill ScannerとPaligemma 2 Mixを使用した支出アナライザー
    私たちがとる主な手順の概要を説明しましょう:
    1. データセットのロードと準(zhǔn)備:プロセスは、領(lǐng)収書畫像を入力としてロードおよび準(zhǔn)備することから始まります。
    2. Paligemma 2ミックスモデルの初期化:ビジョン言語(yǔ)タスクを処理するためにモデルを構(gòu)成してロードします。
    3. プロセス入力畫像:次に、畫像を適切な形式(RGB)に変換し、分析の準(zhǔn)備をします。
    4. 抽出キー情報(bào):光學(xué)文字認(rèn)識(shí)(OCR)を?qū)g行して合計(jì)量を取得します。
    5. 費(fèi)用の分類:食料品、衣類、電子機(jī)器などのカテゴリに購(gòu)入を分類します。
    6. 支出の洞察を生成する:分類された費(fèi)用を要約し、支出配布チャートを生成します。
    7. インタラクティブなグラデーションインターフェイスの作成:最後に、ユーザーが複數(shù)の請(qǐng)求書をアップロードし、データを抽出し、視覚的に支出を分析できるU(xiǎn)Iを作成します。
    8. ステップ1:前提條件
    9. 開始する前に、次のツールとライブラリがインストールされていることを確認(rèn)しましょう。
    10. python 3.8
    トーチ

    変圧器

    pil
    • matplotlib
    • Gradio
    • 次のコマンドを?qū)g行して、必要な依存関係をインストールします
    • 上記の依存関係がインストールされたら、次のインポートコマンドを?qū)g行します。
    • ステップ2:モデルの初期化
    • パフォーマンスを最適化するために、Paligemma 2 Mix ModelとQuantizationを構(gòu)成およびロードします。このデモでは、448 x 448入力畫像解像度で10Bパラメーターモデルを使用します。このモデルを?qū)g行するには、40GBメモリ(Colab構(gòu)成)を備えた最小のT4 GPUが必要です。?

    bitsandbytesの量子化は、パフォーマンスを維持しながらメモリの使用量を削減し、限られたGPUリソ??ースで大規(guī)模なモデルを?qū)g行することを可能にします。この実裝では、4ビットの量子化を使用して、メモリ効率をさらに最適化します。
    pip install gradio -U bitsandbytes -U transformers -q
    モデルIDと量子化構(gòu)成を渡すことにより、変圧器ライブラリからPaligemmamaforConditionalGenerationクラスを使用してモデルをロードします。同様に、プロセッサをロードします。プロセッサは、テンソルをモデルに渡す前にテンソルに入力を前処理します。

    ステップ3:畫像処理

    import gradio as gr
    import torch
    import pandas as pd
    import matplotlib.pyplot as plt
    from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
    from transformers import BitsAndBytesConfig
    from PIL import Image
    import re
    モデルシャードがロードされたら、畫像形式の互換性を維持するためにモデルに渡す前に畫像を処理し、均一性を獲得します。畫像をRGB形式に変換します:

    さて、私たちの畫像は推論の準(zhǔn)備ができています。

    device = "cuda" if torch.cuda.is_available() else "cpu"
    # Model setup
    model_id = "google/paligemma2-10b-mix-448" 
    bnb_config = BitsAndBytesConfig(
        load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
        llm_int8_threshold=6.0,
    )
    
    # Load model with quantization
    model = PaliGemmaForConditionalGeneration.from_pretrained(
        model_id, quantization_config=bnb_config
    ).eval()
    
    # Load processor
    processor = PaliGemmaProcessor.from_pretrained(model_id)
    # Print success message
    print("Model and processor loaded successfully!")
    ステップ4:パリゲンマとの推論

    次に、モデルとの推論を?qū)g行するための主な関數(shù)を設(shè)定します。この関數(shù)は、入力畫像と質(zhì)問を取り入れ、それらをプロンプトに組み込み、推論のためにプロセッサを介してモデルに渡します。

    ステップ5:キー情報(bào)の抽出

    メイン関數(shù)が準(zhǔn)備が整ったので、次に畫像から重要なパラメーターを抽出することに取り組みます。私たちの場(chǎng)合、これらは合計(jì)金額と商品のカテゴリです。
    pip install gradio -U bitsandbytes -U transformers -q

    extract_total_amount()関數(shù)は畫像を処理して、OCRを使用して領(lǐng)収書から合計(jì)金額を抽出します。數(shù)値のみを抽出するようにモデルに指示するクエリ(質(zhì)問)を構(gòu)築し、Ask_model()関數(shù)を呼び出してモデルから応答を生成します。?

    import gradio as gr
    import torch
    import pandas as pd
    import matplotlib.pyplot as plt
    from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
    from transformers import BitsAndBytesConfig
    from PIL import Image
    import re

    caltearize_goods()関數(shù)は、食料品、衣類、エレクトロニクス、またはその他の事前定義された質(zhì)問をリストする事前定義された質(zhì)問でモデルに促すことにより、畫像の商品の種類を分類します。 Ask_model()関數(shù)は、畫像を処理し、テキスト応答を返します。処理された応答が事前に定義された有効なカテゴリのいずれかと一致する場(chǎng)合、そのカテゴリを返します。他に、デフォルトは「その他」カテゴリになります。

    ステップ6:情報(bào)の分析

    すべてのキー関數(shù)の準(zhǔn)備ができているため、出力を分析しましょう。

    上記の関數(shù)は、異なるカテゴリにわたって支出分布を視覚化するためのパイチャートを作成します。有効な支出データが存在しない場(chǎng)合、「支出データがない」を示すメッセージを含む空白のフィギュアが生成されます。それ以外の場(chǎng)合は、カテゴリのラベルとパーセンテージ?jìng)帳騻浃à骏靴ぅ隶悌`トを作成し、比例した整合した視覚化を確保します。
    device = "cuda" if torch.cuda.is_available() else "cpu"
    # Model setup
    model_id = "google/paligemma2-10b-mix-448" 
    bnb_config = BitsAndBytesConfig(
        load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
        llm_int8_threshold=6.0,
    )
    
    # Load model with quantization
    model = PaliGemmaForConditionalGeneration.from_pretrained(
        model_id, quantization_config=bnb_config
    ).eval()
    
    # Load processor
    processor = PaliGemmaProcessor.from_pretrained(model_id)
    # Print success message
    print("Model and processor loaded successfully!")
    ステップ6:複數(shù)の請(qǐng)求書を同時(shí)に分析します

    通常、分析する複數(shù)の請(qǐng)求書があるので、すべての請(qǐng)求書を同時(shí)に処理する関數(shù)を作成しましょう。

    複數(shù)の請(qǐng)求書を一度に分析するために、次の手順を?qū)g行します。

    ストレージの初期化:結(jié)果と畫像を保存するためのリストを作成し、合計(jì)を0に設(shè)定し、カテゴリごとの合計(jì)の辭書を定義します。
    def ensure_rgb(image: Image.Image) -> Image.Image:
        if image.mode != "RGB":
            image = image.convert("RGB")
        return image
    各請(qǐng)求書を処理します:

    1. 畫像をRGBに開いて変換します
    2. 畫像をリストに追加します。
    3. 領(lǐng)収書から合計(jì)金額を抽出します
    領(lǐng)収書の商品を分類します
      総支出とカテゴリごとの合計(jì)を更新します
    • 抽出されたデータを結(jié)果リストに保存します
    • 洞察を生成:支出の総支出の概要とともに、支出配布パイチャートを作成します。
    • 結(jié)果の結(jié)果:最後に、畫像のリスト、請(qǐng)求書の要約のデータフレーム、総支出概要、および支出チャートを返します。
    • ステップ7:グレードインターフェイスを構(gòu)築します
    • 今、すべての重要なロジック関數(shù)が整っています。次に、Gradioを使用してインタラクティブUIの構(gòu)築に取り組みます
    • 上記のコードでは、複數(shù)の畫像用のファイルアップローダーを備えた構(gòu)造化されたグラデーションUIと、トリガー処理の送信ボタンを作成します。提出されると、アップロードされた請(qǐng)求書畫像がギャラリーに表示され、抽出されたデータがテーブルに表示され、総支出がテキストに要約され、支出分布パイチャートが生成されます。?
    • 関數(shù)は、ユーザー入力をProcess_multiple_bills()関數(shù)に接続し、シームレスなデータ抽出と視覚化を確保します。最後に、demo.launch()関數(shù)は、リアルタイムインタラクションのためにグレードアプリを開始します。

      Paligemma 2ミックス:デモOCRプロジェクトを備えたガイド

      2つの畫像ベースの請(qǐng)求書(Amazon Shopping Invoice)でこのデモを試して、次の結(jié)果を得ました。

      注:VLMは、數(shù)値を抽出するのが難しいと感じているため、結(jié)果が誤っている場(chǎng)合があります。たとえば、以下の2番目の請(qǐng)求書の間違った合計(jì)額を抽出しました。これは、より大きなモデルを使用するか、単に既存のモデルを微調(diào)整することで修正できます。

      Paligemma 2ミックス:デモOCRプロジェクトを備えたガイド

      結(jié)論Paligemma 2ミックス:デモOCRプロジェクトを備えたガイド このチュートリアルでは、Paligemma 2ミックスを使用してAIを搭載した複數(shù)のビルスキャナーを構(gòu)築しました。これは、領(lǐng)収書から費(fèi)用を抽出して分類するのに役立ちます。 OCRと分類のためにPaligemma 2 Mixのビジョン言語(yǔ)機(jī)能を使用して、支出の洞察を簡(jiǎn)単に分析しました。このチュートリアルを自分のユースケースに適合させることをお?jiǎng)幛幛筏蓼埂?

以上がPaligemma 2ミックス:デモOCRプロジェクトを備えたガイドの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

トップ7ノートブックルムの代替 トップ7ノートブックルムの代替 Jun 17, 2025 pm 04:32 PM

GoogleのNoteBookLMは、Gemini 2.5を搭載したスマートAIノートテイキングツールであり、ドキュメントの要約に優(yōu)れています。ただし、ソースキャップ、クラウド依存、最近の「発見」機(jī)能など、ツールの使用にはまだ制限があります。

採(cǎi)用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド 採(cǎi)用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド Jun 20, 2025 am 11:13 AM

エンタープライズAIランドスケープを再構(gòu)築する10の説得力のある傾向があります。LLMSORGANIZATIONSへの財(cái)政的コミットメントは、LLMSへの投資を大幅に増加させており、72%が今年の支出が増加することを期待しています。現(xiàn)在、ほぼ40%a

AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評(píng)価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購(gòu)入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評(píng)価する方法とpr

生成AIの止められない成長(zhǎng)(AI Outlookパート1) 生成AIの止められない成長(zhǎng)(AI Outlookパート1) Jun 21, 2025 am 11:11 AM

開示:私の會(huì)社であるTirias Researchは、IBM、Nvidia、およびこの記事で述べた他の企業(yè)に相談しました。成長(zhǎng)ドライバー生成AI採(cǎi)用の急増は、最も楽観的な予測(cè)でさえ予測(cè)できるよりも劇的でした。次に、a

新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します 新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します Jun 19, 2025 am 11:16 AM

広範(fàn)囲にわたる採(cǎi)用と感情的な準(zhǔn)備のギャップは、人間が成長(zhǎng)しているデジタルコンパニオンの配列にどのように関與しているかについて不可欠な何かを明らかにしています。アルゴリズムが毎日のライブに織り込む共存の段階に入っています

これらのスタートアップは、企業(yè)がAI検索の概要に登場(chǎng)するのを支援しています これらのスタートアップは、企業(yè)がAI検索の概要に登場(chǎng)するのを支援しています Jun 20, 2025 am 11:16 AM

AIのおかげで、それらの日は番號(hào)が付けられています。 1つのスタッドによると、Googleのようなサイトでの検索の60%がユーザーがリンクをクリックしていないため、旅行サイトKayakやEdtech Company Cheggなどの企業(yè)の検索トラフィックが減少しています。

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Jun 19, 2025 am 11:10 AM

私が最も重要だと思ったものと、Ciscoがその野心をさらに実現(xiàn)するための現(xiàn)在の取り組みにどのように構(gòu)築されるかを詳しく見てみましょう。

See all articles