办公室玩弄爆乳女秘hd,zzijzzij亚洲日本少妇,波多野结衣一区二区三区高清

ホームページ

バックエンド開発

Python チュートリアル

埋め込みフォント PDF からテキストのロックを解除する: pytesseract OCR チュートリアル

Patricia Arquette

Dec 01, 2024 pm 06:47 PM

Unlocking Text from Embedded-Font PDFs: A pytesseract OCR Tutorial

PDF が英語でフォントが埋め込まれていない場合、PDF からテキストを抽出するのは通常簡単です。ただし、これらの前提が取り除かれると、pdfminer や pdfplumber などの基本的な Python ライブラリを使用するのが難しくなります。先月、私はグジャラート語の PDF からテキストを抽出し、名前、住所、都市などのデータフィールドを JSON 形式にインポートするという任務(wù)を負(fù)いました。

フォントが PDF 自體に埋め込まれている場合、単純なコピー＆ペーストは機(jī)能せず、pdfplumber を使用すると、判読できないジャンクテキストが返されます。したがって、各 PDF ページを畫像に変換し、pytesseract ライブラリを使用して OCR を適用して、単にページを読み取るのではなく「スキャン」する必要がありました。このチュートリアルでは、その方法を説明します。

必要なもの

pdfplumber (Python ライブラリ)
pdf2image (Python ライブラリ)
pytesseract (Python ライブラリ)
tesseract-ocr

以下に示すように、pip コマンドを使用して Python ライブラリをインストールできます。 Tesseract-OCR の場合は、公式サイトからソフトウェアをダウンロードしてインストールします。 pytesseract は、tesseract ソフトウェアの単なるラッパーです。

pip install pdfplumber
pip install pdf2image
pip install pytesseract

PDFページを畫像に変換する

最初のステップは、PDF ページを畫像に変換することです。この extract_text_from_pdf() 関數(shù)はまさにそれを行います。PDF パスと page_num (インデックスはゼロ) をパラメータとして渡します。わかりやすくするために最初にページを白黒に変換していることに注意してください。これはオプションです。

# Extract text from a specific page of a PDF
def extract_text_from_pdf(pdf_path, page_num):
    # Use pdfplumber to open the PDF
    pdf = pdfplumber.open(pdf_path)
    print(f"extracting page {page_num}..")
    page = pdf.pages[page_num]
    images = convert_from_path(pdf_path, first_page=page_num+1, last_page=page_num+1)
    image = images[0]
    # Convert to black and white
    bw_image = convert_to_bw(image)
    # Save the B&W image for debugging (optional)
    #bw_image.save("bw_page.png")
    # Perform OCR on the B&W image
    e_text = ocr_image(bw_image)
    open('out.txt', 'w', encoding='utf-8').write(e_text)
    #print("output written to file.")
    try:
        process_text(page_num, e_text)
    except Exception as e:
        print("Error occurred:", e)
    print("done..")

# Convert image to black and white
def convert_to_bw(image):
    # Convert to grayscale
    gray = image.convert('L')
    # Apply threshold to convert to pure black and white
    bw = gray.point(lambda x: 0 if x < 128 else 255, '1')
    return bw

# Perform OCR using Tesseract on a given image
def ocr_image(image_path):
    try:
        # Perform OCR
        custom_config = r'--oem 3 --psm 6 -l guj+eng'
        text = pytesseract.image_to_string(image_path, config=custom_config)  # --psm 6 treats the image as a block of text
        return text
    except Exception as e:
        print(f"Error during OCR: {e}")
        return None

ocr_image() 関數(shù)は、pytesseract を使用して、OCR を通じて畫像からテキストを抽出します。 --oem や --psm などの技術(shù)パラメータは畫像の処理方法を制御し、-l guj eng パラメータは読み取られる言語を設(shè)定します。この PDF には英語のテキストが含まれているため、guj eng を使用しました。

テキストを処理する

OCR を使用してテキストをインポートしたら、必要な形式で解析できます。これは、pdfplumber や pypdf2 などの他の PDF ライブラリと同様に機(jī)能します。

nums = ['0', '?', '?', '?', '?', '?', '?', '?', '?', '?']

def process_text(page_num, e_text):
    obj = None
    last_surname = None
    last_kramank = None
    print(f"processing page {page_num}..")
    for line in e_text.splitlines():
        line = line.replace('|', '').replace('[', '').replace(']', '')
        parts = [word for word in line.split(' ') if word]
        if len(parts) == 0: continue
        new_rec = True
        for char in parts[0]:
            if char not in nums:
                new_rec = False
                break
        if len(parts) < 2: continue

        if new_rec and len(parts[0]) >= 2: # numbered line
            if len(parts) < 9: continue
            if obj: records.append(obj)
            obj = {}
            last_surname = parts[1]
            obj['kramank'] = parts[0]
            last_kramank = parts[0]
            obj['full_name'] = ' '.join(parts[1:4])
            obj['surname'] = parts[1]
            obj['pdf_page_num'] = page_num + 1
            obj['registered_by'] = parts[4]
            obj['village_vatan'] = parts[5]
            obj['village_mosal'] = parts[6]
            if parts[8] == '????':
                idx = 7
                obj['dob'] = parts[idx] + ' ????'
                idx += 1
            elif len(parts[7]) == 8 and parts[7][2] == '-':
                idx = 7
                obj['dob'] = parts[idx]
            else:
                print("warning: no date")
                idx = 6
            obj['marital_status'] = parts[idx+1]
            obj['extra_fields'] = '::'.join(parts[idx+2:-2])
            obj['blood_group'] = parts[-1]
        elif parts[0] == last_surname: # new member in existing family
            if obj: records.append(obj)
            obj = {}
            obj['kramank'] = last_kramank
            obj['surname'] = last_surname
            obj['full_name'] = ' '.join(parts[0:3])
            obj['pdf_page_num'] = page_num + 1
            obj['registered_by'] = parts[3]
            obj['village_vatan'] = parts[4]
            obj['village_mosal'] = parts[5]
            if len(parts) <= 6: continue
            if parts[7] == '????': # date exists
                idx = 6
                obj['dob'] = parts[idx] + ' ????'
                idx += 1
            elif len(parts[6]) == 8 and parts[6][2] == '-':
                idx = 6
                obj['dob'] = parts[idx]
            else:
                print("warning: no date")
                idx = 5
            obj['marital_status'] = parts[idx+1]
            obj['extra_fields'] = '::'.join(parts[idx+2:-2])
            obj['blood_group'] = parts[-1]
        elif obj: # continuation lines
            if ("(" in line and ")" in line) or "??.?" in line:
                obj['extra_fields'] += ' ' + '::'.join(parts[0:])
    if obj: records.append(obj)        
    jstr = json.dumps(records, indent=4)
    open("guj.json", 'w', encoding='utf-8').write(jstr)
    print(f"written page {page_num} to json..")

すべての PDF には、考慮する必要がある獨(dú)自のニュアンスがあります。この場合、最初のフィールドの新しいシリアル番號 (0? や 0? など) は、後続のフィールド (姓) が変更されたときに新しいグループを示しました。

pytesseract は、IT テクノロジーの進(jìn)化と進(jìn)歩の証です。約 10 年前、適度な構(gòu)成の PC またはラップトップで、英語以外の言語で OCR を使用して PDF 畫像を読んだり解析したりすることは、ほぼ不可能でした。これはまさに進(jìn)歩です！コーディングを楽しんでください。以下のコメントで仕上がり具合を教えてください。

參考文獻(xiàn)

Windows への Tesseract のインストール
pytesseract OCR を使用して畫像からテキストを認(rèn)識します
Windows 10 で英語以外の言語のテキスト検出をサポートするように pytesseract を構(gòu)成するにはどうすればよいですか?

以上が埋め込みフォント PDF からテキストのロックを解除する: pytesseract OCR チュートリアルの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

8638

Java チュートリアル

1783

CakePHP チュートリアル

1728

Laravel チュートリアル

1579

PHP チュートリアル

1443

Related knowledge

Pythonの不適格またはPytestフレームワークは、自動(dòng)テストをどのように促進(jìn)しますか？ Jun 19, 2025 am 01:10 AM

Pythonの不適格でPytestは、自動(dòng)テストの書き込み、整理、および実行を簡素化する2つの広く使用されているテストフレームワークです。 1.両方とも、テストケースの自動(dòng)発見をサポートし、明確なテスト構(gòu)造を提供します。 pytestはより簡潔で、テスト\ _から始まる関數(shù)が必要です。 2。それらはすべて組み込みのアサーションサポートを持っています：Unittestはアサートエクイアル、アサートトルー、およびその他の方法を提供しますが、Pytestは拡張されたアサートステートメントを使用して障害の詳細(xì)を自動(dòng)的に表示します。 3.すべてがテストの準(zhǔn)備とクリーニングを処理するためのメカニズムを持っています：un

Pythonは、NumpyやPandasなどのライブラリとのデータ分析と操作にどのように使用できますか？ Jun 19, 2025 am 01:04 AM

pythonisidealfordataanalysisduetonumpyandpandas.1）numpyexcelsatnumericalcompitations withfast、多次元路面およびベクトル化された分離likenp.sqrt（）

動(dòng)的なプログラミング技術(shù)とは何ですか？また、Pythonでそれらを使用するにはどうすればよいですか？ Jun 20, 2025 am 12:57 AM

動(dòng)的プログラミング（DP）は、複雑な問題をより単純なサブ問題に分解し、結(jié)果を保存して繰り返し計(jì)算を回避することにより、ソリューションプロセスを最適化します。主な方法は2つあります。1。トップダウン（暗記）：問題を再帰的に分解し、キャッシュを使用して中間結(jié)果を保存します。 2。ボトムアップ（表）：基本的な狀況からソリューションを繰り返し構(gòu)築します。フィボナッチシーケンス、バックパッキングの問題など、最大/最小値、最適なソリューション、または重複するサブ問題が必要なシナリオに適しています。Pythonでは、デコレータまたはアレイを通じて実裝でき、再帰的な関係を特定し、ベンチマークの狀況を定義し、空間の複雑さを最適化することに注意する必要があります。

__iter__と__next__を使用してPythonにカスタムイテレーターを?qū)g裝するにはどうすればよいですか？ Jun 19, 2025 am 01:12 AM

カスタムイテレーターを?qū)g裝するには、クラス內(nèi)の__iter__および__next__メソッドを定義する必要があります。 __iter__メソッドは、ループなどの反復(fù)環(huán)境と互換性があるように、通常は自己の反復(fù)オブジェクト自體を返します。 __next__メソッドは、各反復(fù)の値を制御し、シーケンスの次の要素を返し、アイテムがもうない場合、停止例外をスローする必要があります。 statusステータスを正しく追跡する必要があり、無限のループを避けるために終了條件を設(shè)定する必要があります。 fileファイルラインフィルタリングなどの複雑なロジック、およびリソースクリーニングとメモリ管理に注意を払ってください。 simple単純なロジックについては、代わりにジェネレーター関數(shù)の収率を使用することを検討できますが、特定のシナリオに基づいて適切な方法を選択する必要があります。

Pythonプログラミング言語とそのエコシステムの新たな傾向または將來の方向性は何ですか？ Jun 19, 2025 am 01:09 AM

Pythonの將來の傾向には、パフォーマンスの最適化、より強(qiáng)力なタイププロンプト、代替ランタイムの増加、およびAI/MLフィールドの継続的な成長が含まれます。第一に、CPYTHONは最適化を続け、スタートアップのより速い時(shí)間、機(jī)能通話の最適化、および提案された整數(shù)操作を通じてパフォーマンスを向上させ続けています。第二に、タイプのプロンプトは、コードセキュリティと開発エクスペリエンスを強(qiáng)化するために、言語とツールチェーンに深く統(tǒng)合されています。第三に、PyscriptやNuitkaなどの代替のランタイムは、新しい機(jī)能とパフォーマンスの利點(diǎn)を提供します。最後に、AIとデータサイエンスの分野は拡大し続けており、新興図書館はより効率的な開発と統(tǒng)合を促進(jìn)します。これらの傾向は、Pythonが常に技術(shù)の変化に適応し、その主要な位置を維持していることを示しています。

ソケットを使用してPythonでネットワークプログラミングを?qū)g行するにはどうすればよいですか？ Jun 20, 2025 am 12:56 AM

Pythonのソケットモジュールは、クライアントおよびサーバーアプリケーションの構(gòu)築に適した低レベルのネットワーク通信機(jī)能を提供するネットワークプログラミングの基礎(chǔ)です?；镜膜蔜CPサーバーを設(shè)定するには、Socket.Socket（）を使用してオブジェクトを作成し、アドレスとポートをバインドし、.listen（）を呼び出して接続をリッスンし、.accept（）を介してクライアント接続を受け入れる必要があります。 TCPクライアントを構(gòu)築するには、ソケットオブジェクトを作成し、.connect（）を呼び出してサーバーに接続する必要があります。次に、.sendall（）を使用してデータと.recv（）を送信して応答を受信します。複數(shù)のクライアントを処理するには、1つを使用できます。スレッド：接続するたびに新しいスレッドを起動(dòng)します。 2。非同期I/O：たとえば、Asyncioライブラリは非ブロッキング通信を?qū)g現(xiàn)できます。注意すべきこと

Pythonクラスの多型 Jul 05, 2025 am 02:58 AM

Pythonオブジェクト指向プログラミングのコアコンセプトであるPythonは、「1つのインターフェイス、複數(shù)の実裝」を指し、異なるタイプのオブジェクトの統(tǒng)一処理を可能にします。 1。多型は、メソッドの書き換えを通じて実裝されます。サブクラスは、親クラスの方法を再定義できます。たとえば、Animal ClassのSOCK（）方法は、犬と貓のサブクラスに異なる実裝を持っています。 2.多型の実用的な用途には、グラフィカルドローイングプログラムでdraw（）メソッドを均一に呼び出すなど、コード構(gòu)造を簡素化し、スケーラビリティを向上させる、ゲーム開発における異なる文字の共通の動(dòng)作の処理などが含まれます。 3. Pythonの実裝多型を満たす必要があります：親クラスはメソッドを定義し、子クラスはメソッドを上書きしますが、同じ親クラスの継承は必要ありません。オブジェクトが同じ方法を?qū)g裝する限り、これは「アヒル型」と呼ばれます。 4.注意すべきことには、メンテナンスが含まれます

Pythonでリストをスライスするにはどうすればよいですか？ Jun 20, 2025 am 12:51 AM

Pythonリストスライスに対するコアの答えは、[start：end：step]構(gòu)文をマスターし、その動(dòng)作を理解することです。 1.リストスライスの基本形式はリスト[start：end：step]です。ここで、開始は開始インデックス（含まれています）、endはend index（含まれていません）、ステップはステップサイズです。 2。デフォルトで開始を省略して、0から開始を開始し、デフォルトで終了して終了し、デフォルトでステップを1に省略します。 3。my_list[：n]を使用して最初のnアイテムを取得し、my_list [-n：]を使用して最後のnアイテムを取得します。 4.ステップを使用して、my_list [:: 2]などの要素をスキップして、均一な數(shù)字と負(fù)のステップ値を取得できます。 5.一般的な誤解には、終了インデックスが含まれません

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂