


Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?
Oct 30, 2024 pm 03:51 PME-mel Pemadanan Kabur dan Nombor Telefon dalam Elasticsearch
Elasticsearch menawarkan kaedah fleksibel untuk pemadanan kabur data, termasuk e-mel dan nombor telefon. Artikel ini meneroka cara mengoptimumkan prestasi untuk pertanyaan sedemikian menggunakan penganalisis tersuai dan penapis token.
Penganalisis Tersuai untuk Padanan Kabur
Untuk memadankan e-mel dan nombor telefon secara cekap, ia adalah disyorkan untuk mencipta penganalisis tersuai dalam Elasticsearch. Penganalisis ini terdiri daripada tokenizer yang menyediakan data input untuk analisis dan satu set penapis yang melaksanakan transformasi tertentu.
Penganalisis E-mel
Penganalisis index_email_analyzer memanfaatkan tokenizer standard untuk pecahkan input. Ia kemudian menggunakan penapis seperti huruf kecil, name_ngram_filter dan memangkas untuk menukar e-mel kepada huruf kecil, menjana ngram dengan panjang yang berbeza-beza (daripada 3 hingga 20 aksara) dan mengalih keluar ruang.
search_email_analyzer juga menggunakan tokenizer standard tetapi hanya menggunakan penapis huruf kecil dan trim. Ini menyediakan input untuk carian, di mana penapis ngram tidak diperlukan.
Penganalisis Telefon
Untuk nombor telefon, index_phone_analyzer menggunakan digit_edge_ngram_tokenizer untuk menghasilkan ngram dengan panjang yang berbeza-beza (1 hingga 15 aksara) yang bermula dengan digit. Ini membolehkan untuk memadankan mana-mana awalan nombor telefon. Penapis aksara digit_only mengalih keluar aksara bukan digit untuk memastikan hanya nilai berangka dianalisis.
search_phone_analyzer menggunakan tokenizer kata kunci, yang menjana satu token daripada input, membolehkan padanan tepat nombor telefon.
Melaksanakan Penganalisis
Berikut ialah contoh pemetaan yang menggabungkan penganalisis tersuai ini:
PUT myindex { "settings": { "analysis": { "analyzer": { "email_url_analyzer": { "type": "custom", "tokenizer": "uax_url_email", "filter": [ "trim" ] }, "index_phone_analyzer": { "type": "custom", "char_filter": [ "digit_only" ], "tokenizer": "digit_edge_ngram_tokenizer", "filter": [ "trim" ] }, "search_phone_analyzer": { "type": "custom", "char_filter": [ "digit_only" ], "tokenizer": "keyword", "filter": [ "trim" ] }, "index_email_analyzer": { "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "name_ngram_filter", "trim" ] }, "search_email_analyzer": { "type": "custom", "tokenizer": "standard", "filter": [ "lowercase", "trim" ] } }, "char_filter": { "digit_only": { "type": "pattern_replace", "pattern": "\D+", "replacement": "" } }, "tokenizer": { "digit_edge_ngram_tokenizer": { "type": "edgeNGram", "min_gram": "1", "max_gram": "15", "token_chars": [ "digit" ] } }, "filter": { "name_ngram_filter": { "type": "ngram", "min_gram": "1", "max_gram": "20" } } } }, "mappings": { "your_type": { "properties": { "email": { "type": "string", "analyzer": "index_email_analyzer", "search_analyzer": "search_email_analyzer" }, "phone": { "type": "string", "analyzer": "index_phone_analyzer", "search_analyzer": "search_phone_analyzer" } } } } }
Melaksanakan Pertanyaan Kabur
Untuk memadankan e-mel yang berakhir dengan "@gmail.com" atau nombor telefon bermula dengan "136", anda boleh mengeluarkan pertanyaan seperti:POST myindex { "query": { "term": { "email": "@gmail.com" } } } POST myindex { "query": { "term": { "phone": "136" } } }Pertanyaan ini akan memanfaatkan penganalisis tersuai untuk menjana ngram yang diperlukan untuk fuzzy padan.
Atas ialah kandungan terperinci Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

GTID (Pengenal Transaksi Global) menyelesaikan kerumitan replikasi dan failover dalam pangkalan data MySQL dengan memberikan identiti unik kepada setiap transaksi. 1. Ia memudahkan pengurusan replikasi, secara automatik mengendalikan fail log dan lokasi, yang membolehkan pelayan hamba meminta urus niaga berdasarkan GTID yang dilaksanakan terakhir. 2. Pastikan konsistensi di seluruh pelayan, pastikan setiap transaksi digunakan hanya sekali pada setiap pelayan, dan elakkan ketidakkonsistenan data. 3. Meningkatkan kecekapan penyelesaian masalah. GTID termasuk nombor UUID pelayan dan siri, yang mudah untuk mengesan aliran transaksi dan mencari masalah dengan tepat. Ketiga -tiga kelebihan teras ini menjadikan replikasi MySQL lebih mantap dan mudah dikendalikan, meningkatkan kebolehpercayaan sistem dan integriti data.

Failover Perpustakaan Utama MySQL terutamanya termasuk empat langkah. 1. Pengesanan kesalahan: Secara kerap memeriksa proses perpustakaan utama, status sambungan dan pertanyaan mudah untuk menentukan sama ada ia adalah downtime, menyediakan mekanisme semula untuk mengelakkan salah laku, dan boleh menggunakan alat seperti MHA, Orchestrator atau yang disimpan untuk membantu dalam pengesanan; 2. Pilih Perpustakaan Utama Baru: Pilih Perpustakaan Hamba yang paling sesuai untuk menggantikannya mengikut Kemajuan Penyegerakan Data (SecondS_Behind_Master), integriti data binLog, kelewatan rangkaian dan keadaan beban, dan melakukan pampasan data atau campur tangan manual jika perlu; 3. Tukar Topologi: Titik perpustakaan hamba lain ke perpustakaan induk baru, laksanakan semula semula atau aktifkan GTID, kemas kini konfigurasi VIP, DNS atau proksi ke

Langkah-langkah untuk menyambung ke pangkalan data MySQL adalah seperti berikut: 1. Gunakan format perintah asas MySQL-U Username-P-H alamat host untuk menyambung, masukkan nama pengguna dan kata laluan untuk log masuk; 2. Jika anda perlu memasukkan pangkalan data yang ditentukan secara langsung, anda boleh menambah nama pangkalan data selepas arahan, seperti MySQL-Uroot-PmyProject; 3 Jika port bukan lalai 3306, anda perlu menambah parameter -P untuk menentukan nombor port, seperti MySQL-UROOT-P-H192.168.1.100-P3307; Di samping itu, jika anda menghadapi ralat kata laluan, anda boleh memasukkannya semula. Jika sambungan gagal, periksa rangkaian, firewall atau tetapan kebenaran. Jika pelanggan hilang, anda boleh memasang MySQL-Client di Linux melalui Pengurus Pakej. Menguasai arahan ini

Urus niaga MySQL mengikuti ciri -ciri asid untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Pertama, atomiki memastikan bahawa urus niaga dilaksanakan sebagai keseluruhan yang tidak dapat dipisahkan, sama ada semua berjaya atau semua gagal untuk kembali. Sebagai contoh, pengeluaran dan deposit mesti diselesaikan atau tidak berlaku pada masa yang sama dalam operasi pemindahan; Kedua, konsistensi memastikan bahawa transaksi peralihan pangkalan data dari satu keadaan yang sah ke yang lain, dan mengekalkan logik data yang betul melalui mekanisme seperti kekangan dan pencetus; Ketiga, pengasingan mengawal penglihatan pelbagai urus niaga apabila pelaksanaan serentak, menghalang bacaan kotor, bacaan yang tidak dapat dikembalikan dan bacaan fantasi. MySQL menyokong ReadunCommitted dan ReadCommi.

Indexesinmysqlimprovequeryspeedbyenablingfasterdataretrieval.1.theyreducedAtascanned, membolehkanmysqltoquicklylocaterelevantrowsinwhereororderbyclauses, terutama sekalimortantforlargeorfrequeriedTables.2.theyspeedupjoinSoSdoSoBes.2

Untuk menambah direktori bin MySQL ke laluan sistem, ia perlu dikonfigurasikan mengikut sistem operasi yang berbeza. 1. Sistem Windows: Cari folder bin dalam direktori pemasangan MySQL (laluan lalai biasanya c: \ programfiles \ mysql \ mysqlserverx.x \ bin), klik kanan "Komputer ini" → "sifat" → "Tetapan Sistem Lanjutan" → " MySQL-Pengesahan versi; 2.Macos dan Sistem Linux: Pengguna Bash Edit ~/.bashrc atau ~/.bash_

Tahap pengasingan urus niaga mysql adalah berulang, yang menghalang bacaan kotor dan bacaan yang tidak boleh dikembalikan melalui kunci MVCC dan GAP, dan mengelakkan bacaan hantu dalam kebanyakan kes; Tahap utama yang lain termasuk bacaan yang tidak komited (readuncommitted), yang membolehkan bacaan kotor tetapi prestasi terpantas, 1. memastikan integriti data tetapi mengorbankan prestasi;

TosecurelyConnecttoaremotemysqlserver, usesshtunneling, configuremysqlforremoteaccess, setfirewallrules, andconsidersslencryption .First, DesiglishansshtunnelWithSSH-L3307: localhost: 3306user@remote-server-nandconnectviamysql-h127.0.0.1-p3307.second, editmys
