国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Rumah pembangunan bahagian belakang Tutorial Python Pendekatan Praktikal untuk Pengekstrakan Maklumat Utama (Bahagian 2)

Pendekatan Praktikal untuk Pengekstrakan Maklumat Utama (Bahagian 2)

Jan 16, 2025 pm 08:13 PM

Pengeluaran Maklumat Utama Kehidupan Sebenar (Bahagian 2): Menapis Prestasi LLM Sumber Terbuka

Bersambung dari Bahagian 1, panduan ini meneroka menggunakan Model Bahasa Besar (LLM) sumber terbuka – Qwen2 2B dan LLaMA 3.1 – untuk pengekstrakan maklumat invois, memfokuskan pada mengatasi kebimbangan privasi data dan had perkakasan (RTX 3060 dengan 12GB VRAM).

Mengapa Qwen2 2B dan LLaMA 3.1?

Pilihan model ini didorong oleh kekangan sumber. Qwen2-VL-2B-Instruct, kerana saiznya yang cekap, telah diutamakan berbanding model 7B yang lebih besar. LLaMA 3.1 (8B), diakses melalui Ollama, telah dipilih untuk pemahaman konteks panjang yang dioptimumkan. Model lain, seperti Qwen2 dalam Ollama (tiada sokongan imej) dan LLaVA (keupayaan berbilang bahasa tidak mencukupi), dianggap tidak sesuai.

Strategi dua model ini memanfaatkan kekuatan Qwen2 dalam pengekstrakan maklumat utama umum dan pengendalian konteks panjang LLaMA 3.1 yang unggul dan konsistensi output JSON, terutamanya untuk dokumen berbilang bahasa. Qwen2 pada mulanya mengekstrak maklumat mentah, yang LLaMA 3.1 kemudiannya diperhalusi dan distrukturkan ke dalam format JSON piawai. PaddleOCR, seperti dalam Bahagian 1, meningkatkan keupayaan penglihatan untuk Qwen2.

Contoh Invois Jepun

Invois Jepun digunakan sebagai kes ujian. Proses OCR awal (menggabungkan pengesanan bahasa dan PaddleOCR) menghasilkan teks yang diiktiraf berikut:

<code>Recognized Text: 
{'ori_text': '根岸 東急ストア TEL 045-752-6131 領(lǐng)収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入會(huì)下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計(jì) 2,111 (內(nèi)消費(fèi)稅等 100 現(xiàn)金 10001 お預(yù)り合計(jì) 110 001 お釣り 7 890', 
'ori_language': 'ja', 
'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 
'language': 'en',}</code>

Practical Approaches to Key Information Extraction (Part 2)

Ini dibandingkan dengan garis dasar ChatGPT, menunjukkan prestasi unggul ChatGPT dalam ujian awal ini.

Keputusan Qwen2 2B (Standalone)

Menggunakan Qwen2 secara bebas mendedahkan batasannya. Output JSON tidak lengkap dan tidak tepat dalam beberapa bidang, menonjolkan perjuangannya dengan pemformatan JSON yang konsisten dan pemprosesan konteks panjang.

Pendekatan Qwen2 dan LLaMA 3.1

Menggunakan LLaMA 3.1 sebagai pemproses pasca untuk memperhalusi output Qwen2 menghasilkan hasil yang lebih baik, tetapi masih tidak sempurna. Walaupun beberapa medan utama diekstrak dengan tepat, maklumat item terperinci kekal bermasalah.

Penambahbaikan Masa Depan: Penalaan halus Qwen2VL

Bahagian seterusnya akan memperincikan penalaan halus model Qwen2VL menggunakan set data data resit, bertujuan untuk meningkatkan dengan ketara kedua-dua ketepatan dan kelajuan pemprosesan untuk tugas khusus ini.

Kesimpulan

Percubaan ini mempamerkan potensi dan had LLM sumber terbuka untuk pengekstrakan maklumat utama dunia sebenar. Walaupun pendekatan gabungan menawarkan penambahbaikan berbanding menggunakan satu model, penghalusan selanjutnya, terutamanya melalui penalaan halus model, adalah perlu untuk mencapai prestasi optimum. Tumpuan pada privasi data dan penggunaan sumber yang cekap kekal sebagai kelebihan utama pendekatan sumber terbuka ini.

Atas ialah kandungan terperinci Pendekatan Praktikal untuk Pengekstrakan Maklumat Utama (Bahagian 2). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Agnes Tachyon Build Guide | Musume Derby Pretty
2 minggu yang lalu By Jack chen
Oguri Cap Build Guide | Musume Derby Pretty
2 minggu yang lalu By Jack chen
Puncak: Cara Menghidupkan Pemain
4 minggu yang lalu By DDD
Puncak bagaimana untuk emote
3 minggu yang lalu By Jack chen

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah teknik pengaturcaraan dinamik, dan bagaimana saya menggunakannya dalam Python? Apakah teknik pengaturcaraan dinamik, dan bagaimana saya menggunakannya dalam Python? Jun 20, 2025 am 12:57 AM

Pengaturcaraan Dinamik (DP) mengoptimumkan proses penyelesaian dengan memecahkan masalah kompleks ke dalam subproblem yang lebih mudah dan menyimpan hasilnya untuk mengelakkan pengiraan berulang. Terdapat dua kaedah utama: 1. Top-down (Hafalan): Recursif menguraikan masalah dan menggunakan cache untuk menyimpan hasil pertengahan; 2. Bottom-Up (Jadual): Bangun secara beransur-ansur dari keadaan asas. Sesuai untuk senario di mana nilai maksimum/minimum, penyelesaian optimum atau subproblem yang bertindih diperlukan, seperti urutan Fibonacci, masalah backpacking, dan lain -lain.

Bagaimana saya melakukan pengaturcaraan rangkaian di python menggunakan soket? Bagaimana saya melakukan pengaturcaraan rangkaian di python menggunakan soket? Jun 20, 2025 am 12:56 AM

Modul soket Python adalah asas pengaturcaraan rangkaian, menyediakan fungsi komunikasi rangkaian peringkat rendah, sesuai untuk membina aplikasi klien dan pelayan. Untuk menyediakan pelayan TCP asas, anda perlu menggunakan socket.socket () untuk membuat objek, mengikat alamat dan port, panggilan. Listen () untuk mendengar sambungan, dan menerima sambungan klien melalui .accept (). Untuk membina klien TCP, anda perlu membuat objek soket dan panggilan .Connect () untuk menyambung ke pelayan, kemudian gunakan .sendall () untuk menghantar data dan .recv () untuk menerima respons. Untuk mengendalikan pelbagai pelanggan, anda boleh menggunakan 1. Threads: Mulakan benang baru setiap kali anda menyambung; 2. Asynchronous I/O: Sebagai contoh, Perpustakaan Asyncio dapat mencapai komunikasi yang tidak menyekat. Perkara yang perlu diperhatikan

Bagaimana saya mengiris senarai dalam python? Bagaimana saya mengiris senarai dalam python? Jun 20, 2025 am 12:51 AM

Jawapan teras kepada pengirim senarai Python adalah menguasai sintaks [Start: End: Step] dan memahami kelakuannya. 1. Format asas pengirim senarai adalah senarai [Mula: akhir: langkah], di mana permulaan adalah indeks permulaan (termasuk), akhir adalah indeks akhir (tidak termasuk), dan langkah adalah saiz langkah; 2. Omit Mula secara lalai bermula dari 0, endek akhir secara lalai hingga akhir, omite langkah secara lalai kepada 1; 3. Gunakan my_list [: n] untuk mendapatkan item n pertama, dan gunakan my_list [-n:] untuk mendapatkan item n yang terakhir; 4. Gunakan langkah untuk melangkau unsur -unsur, seperti my_list [:: 2] untuk mendapatkan angka, dan nilai langkah negatif dapat membalikkan senarai; 5. Kesalahpahaman biasa termasuk indeks akhir tidak

Bagaimanakah saya menggunakan modul DateTime untuk bekerja dengan tarikh dan masa di Python? Bagaimanakah saya menggunakan modul DateTime untuk bekerja dengan tarikh dan masa di Python? Jun 20, 2025 am 12:58 AM

Modul DateTime Python dapat memenuhi keperluan pemprosesan tarikh dan masa asas. 1. Anda boleh mendapatkan tarikh dan masa semasa melalui datetime.now (), atau anda boleh mengekstrak .date () dan .time () masing -masing. 2. Boleh membuat objek tarikh dan masa tertentu secara manual, seperti DateTime (tahun = 2025, bulan = 12, hari = 25, jam = 18, minit = 30). 3. Gunakan .strftime () untuk output rentetan dalam format. Kod biasa termasuk %y, %m, %d, %h, %m, dan %s; Gunakan strpTime () untuk menghuraikan rentetan ke dalam objek DateTime. 4. Gunakan timedelta untuk penghantaran tarikh

Polimorfisme dalam kelas python Polimorfisme dalam kelas python Jul 05, 2025 am 02:58 AM

Polimorfisme adalah konsep teras dalam pengaturcaraan berorientasikan objek Python, merujuk kepada "satu antara muka, pelbagai pelaksanaan", yang membolehkan pemprosesan bersatu pelbagai jenis objek. 1. Polimorfisme dilaksanakan melalui penulisan semula kaedah. Subkelas boleh mentakrifkan semula kaedah kelas induk. Sebagai contoh, kaedah bercakap () kelas haiwan mempunyai pelaksanaan yang berbeza dalam subkelas anjing dan kucing. 2. Penggunaan praktikal polimorfisme termasuk memudahkan struktur kod dan meningkatkan skalabilitas, seperti memanggil kaedah cabutan () secara seragam dalam program lukisan grafik, atau mengendalikan tingkah laku umum watak -watak yang berbeza dalam pembangunan permainan. 3. Polimorfisme pelaksanaan Python perlu memenuhi: Kelas induk mentakrifkan kaedah, dan kelas kanak -kanak mengatasi kaedah, tetapi tidak memerlukan warisan kelas induk yang sama. Selagi objek melaksanakan kaedah yang sama, ini dipanggil "jenis itik". 4. Perkara yang perlu diperhatikan termasuk penyelenggaraan

Bagaimana saya menulis 'Hello, World!' Yang mudah! program dalam python? Bagaimana saya menulis 'Hello, World!' Yang mudah! program dalam python? Jun 24, 2025 am 12:45 AM

"Hello, dunia!" Program adalah contoh paling asas yang ditulis dalam Python, yang digunakan untuk menunjukkan sintaks asas dan mengesahkan bahawa persekitaran pembangunan dikonfigurasi dengan betul. 1. Ia dilaksanakan melalui garis cetakan kod ("Hello, World!"), Dan selepas berlari, teks yang ditentukan akan dikeluarkan pada konsol; 2. Langkah -langkah berjalan termasuk memasang python, menulis kod dengan editor teks, menyimpan sebagai fail .py, dan melaksanakan fail di terminal; 3. Kesilapan umum termasuk kurungan atau petikan yang hilang, penyalahgunaan cetakan modal, tidak menyimpan format .py, dan kesilapan persekitaran yang menjalankan; 4. Alat pilihan termasuk terminal editor teks tempatan, editor dalam talian (seperti replit.com)

Apakah tuple di Python, dan bagaimana mereka berbeza dari senarai? Apakah tuple di Python, dan bagaimana mereka berbeza dari senarai? Jun 20, 2025 am 01:00 AM

TuplesinpythonareimmutabledataStructuresedToStoreCollectionsOfitems, sedangkan aslistsaremutable.tuplesaredefinedwithparenthesandcommas, supportindexing, andcannotbemodifiedAftercreation, MakeTheMfasterandmoremory-efficienthanLists.UshoenthanLists.UshanDanLists.UshanDanLists.UshanDanLists.UshanDanLists.UshanDanLists.UshanDanLists.UshanLoShists

Bagaimana saya menjana rentetan rawak di python? Bagaimana saya menjana rentetan rawak di python? Jun 21, 2025 am 01:02 AM

Untuk menghasilkan rentetan rawak, anda boleh menggunakan kombinasi modul rawak dan rentetan Python. Langkah -langkah khusus ialah: 1. Import modul rawak dan rentetan; 2. Tentukan kolam watak seperti string.ascii_letters dan string.digits; 3. Tetapkan panjang yang diperlukan; 4. Panggil Random.Choices () untuk menjana rentetan. Sebagai contoh, kod tersebut termasuk importrandom dan importstring, set panjang = 10, aksara = string.ascii_letters string.digits dan laksanakan '' .join (random.c

See all articles