99精品国产丝袜在线拍国语,国产98在线

首頁

后端開發(fā)

Python教程

解鎖嵌入字體 PDF 中的文本：pytesseract OCR 教程

Patricia Arquette

Dec 01, 2024 pm 06:47 PM

Unlocking Text from Embedded-Font PDFs: A pytesseract OCR Tutorial

當(dāng) PDF 為英文并且沒有嵌入字體時(shí)，從 PDF 中提取文本通常很簡單。然而，一旦消除這些假設(shè)，使用 pdfminer 或 pdfplumber 等基本 Python 庫就變得具有挑戰(zhàn)性。上個(gè)月，我的任務(wù)是從古吉拉特語 PDF 中提取文本，并將姓名、地址、城市等數(shù)據(jù)字段導(dǎo)入 JSON 格式。

如果字體嵌入在 PDF 本身中，簡單的復(fù)制粘貼將不起作用，并且使用 pdfplumber 將返回不可讀的垃圾文本。因此，我必須將每個(gè) PDF 頁面轉(zhuǎn)換為圖像，然后使用 pytesseract 庫應(yīng)用 OCR 來“掃描”頁面，而不僅僅是閱讀它。本教程將向您展示如何做到這一點(diǎn)。

你需要的東西

pdfplumber（Python 庫）
pdf2image（Python 庫）
pytesseract（Python 庫）
tesseract-ocr

您可以使用 pip 命令安裝 Python 庫，如下所示。對于 Tesseract-OCR，請從官方網(wǎng)站下載并安裝該軟件。 pytesseract 只是 tesseract 軟件的包裝。

pip install pdfplumber
pip install pdf2image
pip install pytesseract

將 PDF 頁面轉(zhuǎn)換為圖像

第一步是將 PDF 頁面轉(zhuǎn)換為圖像。這個(gè) extract_text_from_pdf() 函數(shù)正是這樣做的 - 您將 PDF 路徑和 page_num （零索引）作為參數(shù)傳遞。請注意，為了清晰起見，我首先將頁面轉(zhuǎn)換為黑白，這是可選的。

# Extract text from a specific page of a PDF
def extract_text_from_pdf(pdf_path, page_num):
    # Use pdfplumber to open the PDF
    pdf = pdfplumber.open(pdf_path)
    print(f"extracting page {page_num}..")
    page = pdf.pages[page_num]
    images = convert_from_path(pdf_path, first_page=page_num+1, last_page=page_num+1)
    image = images[0]
    # Convert to black and white
    bw_image = convert_to_bw(image)
    # Save the B&W image for debugging (optional)
    #bw_image.save("bw_page.png")
    # Perform OCR on the B&W image
    e_text = ocr_image(bw_image)
    open('out.txt', 'w', encoding='utf-8').write(e_text)
    #print("output written to file.")
    try:
        process_text(page_num, e_text)
    except Exception as e:
        print("Error occurred:", e)
    print("done..")

# Convert image to black and white
def convert_to_bw(image):
    # Convert to grayscale
    gray = image.convert('L')
    # Apply threshold to convert to pure black and white
    bw = gray.point(lambda x: 0 if x < 128 else 255, '1')
    return bw

# Perform OCR using Tesseract on a given image
def ocr_image(image_path):
    try:
        # Perform OCR
        custom_config = r'--oem 3 --psm 6 -l guj+eng'
        text = pytesseract.image_to_string(image_path, config=custom_config)  # --psm 6 treats the image as a block of text
        return text
    except Exception as e:
        print(f"Error during OCR: {e}")
        return None

ocr_image()函數(shù)使用pytesseract通過OCR從圖像中提取文本。 --oem 和 --psm 等技術(shù)參數(shù)控制圖像的處理方式，-l guj eng 參數(shù)設(shè)置要讀取的語言。由于此 PDF 偶爾包含英文文本，因此我使用了 guj eng。

處理文本

使用 OCR 導(dǎo)入文本后，您可以按照您想要的格式解析它。這與其他 PDF 庫（如 pdfplumber 或 pypdf2）類似。

nums = ['0', '?', '?', '?', '?', '?', '?', '?', '?', '?']

def process_text(page_num, e_text):
    obj = None
    last_surname = None
    last_kramank = None
    print(f"processing page {page_num}..")
    for line in e_text.splitlines():
        line = line.replace('|', '').replace('[', '').replace(']', '')
        parts = [word for word in line.split(' ') if word]
        if len(parts) == 0: continue
        new_rec = True
        for char in parts[0]:
            if char not in nums:
                new_rec = False
                break
        if len(parts) < 2: continue

        if new_rec and len(parts[0]) >= 2: # numbered line
            if len(parts) < 9: continue
            if obj: records.append(obj)
            obj = {}
            last_surname = parts[1]
            obj['kramank'] = parts[0]
            last_kramank = parts[0]
            obj['full_name'] = ' '.join(parts[1:4])
            obj['surname'] = parts[1]
            obj['pdf_page_num'] = page_num + 1
            obj['registered_by'] = parts[4]
            obj['village_vatan'] = parts[5]
            obj['village_mosal'] = parts[6]
            if parts[8] == '????':
                idx = 7
                obj['dob'] = parts[idx] + ' ????'
                idx += 1
            elif len(parts[7]) == 8 and parts[7][2] == '-':
                idx = 7
                obj['dob'] = parts[idx]
            else:
                print("warning: no date")
                idx = 6
            obj['marital_status'] = parts[idx+1]
            obj['extra_fields'] = '::'.join(parts[idx+2:-2])
            obj['blood_group'] = parts[-1]
        elif parts[0] == last_surname: # new member in existing family
            if obj: records.append(obj)
            obj = {}
            obj['kramank'] = last_kramank
            obj['surname'] = last_surname
            obj['full_name'] = ' '.join(parts[0:3])
            obj['pdf_page_num'] = page_num + 1
            obj['registered_by'] = parts[3]
            obj['village_vatan'] = parts[4]
            obj['village_mosal'] = parts[5]
            if len(parts) <= 6: continue
            if parts[7] == '????': # date exists
                idx = 6
                obj['dob'] = parts[idx] + ' ????'
                idx += 1
            elif len(parts[6]) == 8 and parts[6][2] == '-':
                idx = 6
                obj['dob'] = parts[idx]
            else:
                print("warning: no date")
                idx = 5
            obj['marital_status'] = parts[idx+1]
            obj['extra_fields'] = '::'.join(parts[idx+2:-2])
            obj['blood_group'] = parts[-1]
        elif obj: # continuation lines
            if ("(" in line and ")" in line) or "??.?" in line:
                obj['extra_fields'] += ' ' + '::'.join(parts[0:])
    if obj: records.append(obj)        
    jstr = json.dumps(records, indent=4)
    open("guj.json", 'w', encoding='utf-8').write(jstr)
    print(f"written page {page_num} to json..")

每個(gè) PDF 都有其必須考慮的細(xì)微差別。在這種情況下，當(dāng)后續(xù)字段（姓氏）更改時(shí)，第一個(gè)字段中的新序列號（如 0? 或 0?）表示一個(gè)新組。

pytesseract 是 IT 技術(shù)發(fā)展和進(jìn)步的證明。大約十年前，在配置適度的 PC 或筆記本電腦上使用非英語 OCR 讀取或解析 PDF 圖像幾乎是不可能的。這才是真正的進(jìn)步！祝您編碼愉快，請?jiān)谙旅娴脑u論中告訴我進(jìn)展如何。

參考

在 Windows 中安裝 Tesseract
使用 pytesseract OCR 識別圖像中的文本
如何配置 pytesseract 以支持 Windows 10 中非英語語言的文本檢測？

以上是解鎖嵌入字體 PDF 中的文本：pytesseract OCR 教程的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn

熱AI工具

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

熱工具

熱門話題

gmail郵箱登陸入口在哪里

8638

Java教程

1784

CakePHP 教程

1729

Laravel 教程

1579

PHP教程

1444

Related knowledge

Python的UNITDEST或PYTEST框架如何促進(jìn)自動(dòng)測試？ Jun 19, 2025 am 01:10 AM

Python的unittest和pytest是兩種廣泛使用的測試框架，它們都簡化了自動(dòng)化測試的編寫、組織和運(yùn)行。1.二者均支持自動(dòng)發(fā)現(xiàn)測試用例并提供清晰的測試結(jié)構(gòu)：unittest通過繼承TestCase類并以test\_開頭的方法定義測試；pytest則更為簡潔，只需以test\_開頭的函數(shù)即可。2.它們都內(nèi)置斷言支持：unittest提供assertEqual、assertTrue等方法，而pytest使用增強(qiáng)版的assert語句，能自動(dòng)顯示失敗詳情。3.均具備處理測試準(zhǔn)備與清理的機(jī)制：un

如何將Python用于數(shù)據(jù)分析和與Numpy和Pandas等文庫進(jìn)行操作？ Jun 19, 2025 am 01:04 AM

pythonisidealfordataanalysisionduetonumpyandpandas.1）numpyExccelSatnumericalComputationswithFast，多dimensionalArraysAndRaysAndOrsAndOrsAndOffectorizedOperationsLikenp.sqrt（）

什么是動(dòng)態(tài)編程技術(shù)，如何在Python中使用它們？ Jun 20, 2025 am 12:57 AM

動(dòng)態(tài)規(guī)劃（DP）通過將復(fù)雜問題分解為更簡單的子問題并存儲(chǔ)其結(jié)果以避免重復(fù)計(jì)算，來優(yōu)化求解過程。主要方法有兩種：1.自頂向下（記憶化）：遞歸分解問題，使用緩存存儲(chǔ)中間結(jié)果；2.自底向上（表格化）：從基礎(chǔ)情況開始迭代構(gòu)建解決方案。適用于需要最大/最小值、最優(yōu)解或存在重疊子問題的場景，如斐波那契數(shù)列、背包問題等。在Python中，可通過裝飾器或數(shù)組實(shí)現(xiàn)，并應(yīng)注意識別遞推關(guān)系、定義基準(zhǔn)情況及優(yōu)化空間復(fù)雜度。

如何使用__ITER__和__NEXT __在Python中實(shí)現(xiàn)自定義迭代器？ Jun 19, 2025 am 01:12 AM

要實(shí)現(xiàn)自定義迭代器，需在類中定義__iter__和__next__方法。①__iter__方法返回迭代器對象自身，通常為self，以兼容for循環(huán)等迭代環(huán)境；②__next__方法控制每次迭代的值，返回序列中的下一個(gè)元素，當(dāng)無更多項(xiàng)時(shí)應(yīng)拋出StopIteration異常；③需正確跟蹤狀態(tài)并設(shè)置終止條件，避免無限循環(huán)；④可封裝復(fù)雜邏輯如文件行過濾，同時(shí)注意資源清理與內(nèi)存管理；⑤對簡單邏輯可考慮使用生成器函數(shù)yield替代，但需結(jié)合具體場景選擇合適方式。

Python編程語言及其生態(tài)系統(tǒng)的新興趨勢或未來方向是什么？ Jun 19, 2025 am 01:09 AM

Python的未來趨勢包括性能優(yōu)化、更強(qiáng)的類型提示、替代運(yùn)行時(shí)的興起及AI/ML領(lǐng)域的持續(xù)增長。首先，CPython持續(xù)優(yōu)化，通過更快的啟動(dòng)時(shí)間、函數(shù)調(diào)用優(yōu)化及擬議中的整數(shù)操作改進(jìn)提升性能；其次，類型提示深度集成至語言與工具鏈，增強(qiáng)代碼安全性與開發(fā)體驗(yàn)；第三，PyScript、Nuitka等替代運(yùn)行時(shí)提供新功能與性能優(yōu)勢；最后，AI與數(shù)據(jù)科學(xué)領(lǐng)域持續(xù)擴(kuò)張，新興庫推動(dòng)更高效的開發(fā)與集成。這些趨勢表明Python正不斷適應(yīng)技術(shù)變化，保持其領(lǐng)先地位。

如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程？ Jun 20, 2025 am 12:56 AM

Python的socket模塊是網(wǎng)絡(luò)編程的基礎(chǔ)，提供低級網(wǎng)絡(luò)通信功能，適用于構(gòu)建客戶端和服務(wù)器應(yīng)用。要設(shè)置基本TCP服務(wù)器，需使用socket.socket()創(chuàng)建對象，綁定地址和端口，調(diào)用.listen()監(jiān)聽連接，并通過.accept()接受客戶端連接。構(gòu)建TCP客戶端需創(chuàng)建socket對象后調(diào)用.connect()連接服務(wù)器，再使用.sendall()發(fā)送數(shù)據(jù)和.recv()接收響應(yīng)。處理多個(gè)客戶端可通過1.線程：每次連接啟動(dòng)新線程；2.異步I/O：如asyncio庫實(shí)現(xiàn)無阻塞通信。注意事

Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?，指“一種接口，多種實(shí)現(xiàn)”，允許統(tǒng)一處理不同類型的對象。1.多態(tài)通過方法重寫實(shí)現(xiàn)，子類可重新定義父類方法，如Animal類的speak()方法在Dog和Cat子類中有不同實(shí)現(xiàn)。2.多態(tài)的實(shí)際用途包括簡化代碼結(jié)構(gòu)、增強(qiáng)可擴(kuò)展性，例如圖形繪制程序中統(tǒng)一調(diào)用draw()方法，或游戲開發(fā)中處理不同角色的共同行為。3.Python實(shí)現(xiàn)多態(tài)需滿足：父類定義方法，子類重寫該方法，但不要求繼承同一父類，只要對象實(shí)現(xiàn)相同方法即可，這稱為“鴨子類型”。4.注意事項(xiàng)包括保持方

如何在Python中切片列表？ Jun 20, 2025 am 12:51 AM

Python列表切片的核心答案是掌握[start:end:step]語法并理解其行為。1.列表切片的基本格式為list[start:end:step]，其中start是起始索引（包含）、end是結(jié)束索引（不包含）、step是步長；2.省略start默認(rèn)從0開始，省略end默認(rèn)到末尾，省略step默認(rèn)為1；3.獲取前n項(xiàng)用my_list[:n]，獲取后n項(xiàng)用my_list[-n:]；4.使用step可跳過元素，如my_list[::2]取偶數(shù)位，負(fù)step值可反轉(zhuǎn)列表；5.常見誤區(qū)包括end索引不

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

解鎖嵌入字體 PDF 中的文本：pytesseract OCR 教程

你需要的東西

將 PDF 頁面轉(zhuǎn)換為圖像

處理文本

參考

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題