TNT-LLM Microsoft: merevolusikan penjanaan taksonomi dan klasifikasi teks
Microsoft telah melancarkan TNT-LLM, sistem pecah tanah yang mengautomasikan penciptaan taksonomi dan klasifikasi teks, melampaui kaedah tradisional dalam kedua-dua kelajuan dan ketepatan. Pendekatan inovatif ini memanfaatkan kuasa model bahasa besar (LLMS) untuk menyelaraskan dan skala penjanaan taksonomi dan pengelas, meminimumkan campur tangan manual. Ini amat bermanfaat untuk aplikasi seperti Bing Copilot, di mana menguruskan data teks yang dinamik dan pelbagai adalah yang paling utama.
Artikel ini menunjukkan pelaksanaan TNT-LLM menggunakan GPT-4O dan Langgraph untuk clustering artikel berita yang efisien. Untuk maklumat lanjut mengenai GPT-4O dan Langgraph, rujuk sumber-sumber ini:
- Apa itu GPT-4O Openai?
- tutorial API GPT-4O: Bermula dengan API OpenAI
- tutorial langgraph: Apakah langgraph dan cara menggunakannya?
Kertas penyelidikan TNT-LLM yang asal, "TNT-LLM: Perlombongan Teks pada skala dengan model bahasa yang besar," memberikan butiran komprehensif mengenai sistem.
Memahami TNT-LLM
TNT-LLM (klasifikasi taksonomi dan teks menggunakan model bahasa yang besar) adalah rangka kerja dua peringkat yang direka untuk menjana dan mengklasifikasikan taksonomi dari data teks.
Fasa 1: Generasi Taksonomi
Fasa awal ini menggunakan sampel dokumen teks dan arahan tertentu (mis., "Menjana taksonomi kepada artikel berita kluster"). LLM meringkaskan setiap dokumen, mengeluarkan maklumat utama. Melalui penghalusan berulang, LLM membina, mengubah, dan menyempurnakan taksonomi, mengakibatkan hierarki label dan deskripsi berstruktur untuk pengkategorian artikel berita yang berkesan.
Sumber: Mengtting Wan et al.
Fasa 2: Klasifikasi Teks
Fasa kedua menggunakan taksonomi yang dihasilkan untuk melabelkan dataset yang lebih besar. LLM menggunakan label ini, mewujudkan data latihan untuk pengelas ringan (seperti regresi logistik). Pengelas terlatih ini dengan cekap melabelkan keseluruhan dataset atau melakukan klasifikasi masa nyata.
Sumber: Mengtting Wan et al.
Kelebihan TNT-LLM
TNT-LLM menawarkan kelebihan yang ketara untuk perlombongan dan klasifikasi teks berskala besar:
- Generasi Taksonomi Automatik: mengautomasikan penciptaan taksonomi terperinci dan ditafsirkan dari teks mentah, menghapuskan keperluan untuk usaha manual dan kepakaran domain yang luas.
- Klasifikasi berskala: Membolehkan klasifikasi teks berskala menggunakan model ringan yang mengendalikan dataset besar dan klasifikasi masa nyata dengan cekap.
- keberkesanan kos: Mengoptimumkan penggunaan sumber melalui penggunaan LLM bertingkat (mis., GPT-4 untuk penjanaan taksonomi, GPT-3.5-Turbo untuk ringkasan, dan regresi logistik untuk klasifikasi akhir). output berkualiti tinggi:
- penjanaan taksonomi berulang memastikan pengkategorian berkualiti tinggi, relevan, dan tepat. Intervensi manusia yang minimum:
- Mengurangkan input manual, meminimumkan potensi kecenderungan dan ketidakkonsistenan. fleksibiliti:
- menyesuaikan diri dengan tugas dan domain klasifikasi teks yang pelbagai, menyokong integrasi dengan pelbagai LLM, kaedah embedding, dan pengelas. Melaksanakan TNT-LLM
Pemasangan:
Pasang pakej yang diperlukan:
Tetapkan pembolehubah persekitaran untuk kekunci API dan nama model:
pip install langgraph langchain langchain_openai
Konsep teras:
export AZURE_OPENAI_API_KEY='your_api_key_here' export AZURE_OPENAI_MODEL='your_deployment_name_here' export AZURE_OPENAI_ENDPOINT='deployment_endpoint'
Dokumen:
- Data teks mentah (artikel, log sembang) berstruktur menggunakan kelas
- .
Doc
taksonomi: kelompok niat atau topik yang dikategorikan, yang diuruskan oleh kelas - .
TaxonomyGenerationState
Membina aplikasi TNT-LLM yang mudah:
Bahagian berikut terperinci langkah pelaksanaan, menggunakan coretan kod untuk menggambarkan proses utama. Oleh kerana panjang kod asal, pembiakan lengkap di sini adalah tidak praktikal. Walau bagaimanapun, yang berikut memberikan gambaran tersusun mengenai proses:
- Langkah 0: Tentukan kelas graf kelas, dataset beban, dan memulakan GPT-4O:
- Ini melibatkan menentukan struktur data dan memuatkan dataset artikel berita. Model GPT-4O diasaskan untuk digunakan sepanjang saluran paip.
- Setiap dokumen diringkaskan menggunakan prompt LLM.
- Dokumen yang diringkaskan dibahagikan kepada minibatches untuk pemprosesan selari.
- Taksonomi awal dihasilkan dari minibatch pertama.
- Taksonomi ini dikemas kini secara berulang sebagai minibatches berikutnya diproses.
- Taksonomi akhir dikaji semula untuk ketepatan dan kaitan.
-
Langkah 6: Mengatur saluran paip TNT-LLM dengan Stategraph: Stategraph mengendalikan pelaksanaan pelbagai langkah.
-
Langkah 7: Clustering dan memaparkan taksonomi artikel berita TNT-LLM: Taksonomi akhir dipaparkan, menunjukkan kelompok artikel berita.
Kesimpulan
TNT-LLM menawarkan penyelesaian yang kuat dan cekap untuk perlombongan dan klasifikasi teks berskala besar. Keupayaan automasinya dengan ketara mengurangkan masa dan sumber yang diperlukan untuk menganalisis data teks yang tidak berstruktur, membolehkan pengambilan keputusan yang didorong oleh data merentasi pelbagai domain. Potensi untuk pembangunan dan aplikasi selanjutnya merentasi industri adalah besar. Bagi mereka yang berminat dalam pembangunan aplikasi LLM selanjutnya, kursus mengenai "membangunkan aplikasi LLM dengan Langchain" adalah disyorkan.
Atas ialah kandungan terperinci Tutorial GPT-4O dan Langgraph: Bina Aplikasi TNT-LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Berikut adalah sepuluh trend yang menarik yang membentuk semula landskap AI perusahaan. Komitmen kewangan untuk llmsorganizations secara signifikan meningkatkan pelaburan mereka di LLM, dengan 72% menjangkakan perbelanjaan mereka meningkat tahun ini. Pada masa ini, hampir 40% a

Pelaburan adalah berkembang pesat, tetapi modal sahaja tidak mencukupi. Dengan penilaian yang semakin meningkat dan tersendiri pudar, pelabur dalam dana usaha yang berfokus pada AI mesti membuat keputusan utama: Beli, membina, atau rakan kongsi untuk mendapatkan kelebihan? Inilah cara menilai setiap pilihan dan PR

Pendedahan: Syarikat saya, Tirias Research, telah berunding untuk IBM, NVIDIA, dan syarikat -syarikat lain yang disebutkan dalam artikel ini. Pemandu Growth Surge dalam penggunaan AI generatif lebih dramatik daripada unjuran yang paling optimis dapat diramalkan. Kemudian, a

Hari -hari itu bernombor, terima kasih kepada AI. Cari lalu lintas untuk perniagaan seperti tapak perjalanan kayak dan syarikat edtech Chegg menurun, sebahagiannya kerana 60% carian di laman web seperti Google tidak mengakibatkan pengguna mengklik sebarang pautan, menurut satu stud

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Menuju ke Agi dan

Pernahkah anda cuba membina aplikasi Model Besar (LLM) anda sendiri? Pernah tertanya -tanya bagaimana orang membuat aplikasi LLM mereka sendiri untuk meningkatkan produktiviti mereka? Aplikasi LLM telah terbukti berguna dalam setiap aspek

Secara keseluruhannya, saya fikir acara itu penting untuk menunjukkan bagaimana AMD menggerakkan bola ke lapangan untuk pelanggan dan pemaju. Di bawah Su, AMD's M.O. adalah untuk mempunyai rancangan yang jelas dan bercita -cita tinggi dan melaksanakan terhadap mereka. Nisbah "katakan/lakukan" beliau adalah tinggi. Syarikat itu

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Bagi pembaca yang h
