国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 后端開發(fā) php教程 有效的中文搜索與Elasticsearch

有效的中文搜索與Elasticsearch

Feb 19, 2025 am 08:28 AM

Elasticsearch 中文搜索:分析器與最佳實(shí)踐

Elasticsearch 的內(nèi)容索引中,分析和詞元化至關(guān)重要,尤其處理非英語(yǔ)語(yǔ)言時(shí)。對(duì)于中文,由于漢字的特性以及詞句之間缺乏空格,這一過(guò)程更為復(fù)雜。

本文探討 Elasticsearch 中分析中文內(nèi)容的幾種方案,包括默認(rèn)的中文分析器、paoding 插件、cjk 分析器、smartcn 分析器和 ICU 插件,并分析其優(yōu)缺點(diǎn)及適用場(chǎng)景。

中文搜索的挑戰(zhàn)

漢字是表意文字,代表一個(gè)詞或語(yǔ)素(語(yǔ)言中最小的有意義單位)。組合在一起,其含義會(huì)發(fā)生變化,代表一個(gè)全新的詞。另一個(gè)難點(diǎn)是詞句之間沒(méi)有空格,這使得計(jì)算機(jī)很難知道一個(gè)詞從哪里開始,到哪里結(jié)束。

即使只考慮普通話(中國(guó)官方語(yǔ)言,也是世界上使用最廣泛的漢語(yǔ)),也有數(shù)萬(wàn)個(gè)漢字,即使實(shí)際書面漢語(yǔ)只需要認(rèn)識(shí)三千到四千個(gè)漢字。例如,“火山”(火山)實(shí)際上是以下兩個(gè)漢字的組合:

  • 火:火
  • 山:山

我們的分詞器必須足夠聰明,避免將這兩個(gè)漢字分開,因?yàn)樗鼈兘M合在一起的意義與分開時(shí)不同。

另一個(gè)難點(diǎn)是使用的拼寫變體:

  • 簡(jiǎn)體中文:書法
  • 繁體中文,更復(fù)雜、更豐富:書法
  • 拼音,普通話的羅馬化形式:shū fǎ

Elasticsearch 中的中文分析器

目前,Elasticsearch 提供以下幾種中文分析器:

  • 默認(rèn)的 Chinese 分析器,基于 Lucene 4 中已棄用的類;
  • paoding 插件,雖然不再維護(hù),但基于非常好的詞典;
  • cjk 分析器,它對(duì)內(nèi)容進(jìn)行二元組化;
  • smartcn 分析器,一個(gè)官方支持的插件;
  • ICU 插件及其分詞器。

這些分析器的差異很大,我們將通過(guò)一個(gè)簡(jiǎn)單的測(cè)試詞“手機(jī)”來(lái)比較它們的性能?!笆謾C(jī)”的意思是“手機(jī)”,它由兩個(gè)漢字組成,分別表示“手”和“機(jī)”?!皺C(jī)”字還構(gòu)成許多其他詞:

  • 機(jī)票:機(jī)票
  • 機(jī)器人:機(jī)器人
  • 機(jī)槍:機(jī)槍
  • 機(jī)遇:機(jī)遇

我們的分詞不能拆分這些漢字,因?yàn)槿绻宜阉鳌笆謾C(jī)”,我不希望出現(xiàn)關(guān)于 Rambo 擁有機(jī)槍的任何文檔。

我們將使用強(qiáng)大的 _analyze API 測(cè)試這些方案:

curl -XGET 'http://localhost:9200/chinese_test/_analyze?analyzer=paoding_analyzer1' -d '手機(jī)'

Efficient Chinese Search with Elasticsearch

  • 默認(rèn)的 Chinese 分析器: 它只將所有漢字分成詞元。因此,我們得到兩個(gè)詞元:手和機(jī)。Elasticsearch 的 standard 分析器產(chǎn)生完全相同的輸出。因此,Chinese 已棄用,很快將被 standard 取代,應(yīng)避免使用。

  • paoding 插件: paoding 幾乎是行業(yè)標(biāo)準(zhǔn),被認(rèn)為是一種優(yōu)雅的解決方案。不幸的是,Elasticsearch 的插件沒(méi)有維護(hù),我只能在經(jīng)過(guò)一些修改后才能在 1.0.1 版本上運(yùn)行它。(安裝步驟略,原文已提供)安裝后,我們得到了一個(gè)新的 paoding 分詞器和兩個(gè)收集器:max_word_lenmost_word。默認(rèn)情況下沒(méi)有公開分析器,因此我們必須聲明一個(gè)新的分析器。(配置步驟略,原文已提供)兩種配置都提供了良好的結(jié)果,具有清晰且唯一的詞元。在處理更復(fù)雜的句子時(shí),其行為也非常好。

  • cjk 分析器: 非常簡(jiǎn)單的分析器,它只將任何文本轉(zhuǎn)換成二元組?!笆謾C(jī)”只索引 手機(jī),效果不錯(cuò),但如果我們使用更長(zhǎng)的詞,例如“元宵節(jié)”(元宵節(jié)),則會(huì)生成兩個(gè)詞元:元宵和宵節(jié),分別表示“元宵”和“宵節(jié)”。

  • smartcn 插件: 非常易于安裝。(安裝步驟略,原文已提供)它公開了一個(gè)新的 smartcn 分析器,以及 smartcn_tokenizer 分詞器,使用 Lucene 的 SmartChineseAnalyzer。它使用概率套件來(lái)查找單詞的最佳分割,使用隱馬爾可夫模型和大量的訓(xùn)練文本。因此,已經(jīng)嵌入了一個(gè)相當(dāng)好的訓(xùn)練詞典——我們的示例被正確地分詞了。

  • ICU 插件: 另一個(gè)官方插件。(安裝步驟略,原文已提供)如果您處理任何非英語(yǔ)語(yǔ)言,建議使用此插件。它公開了一個(gè) icu_tokenizer 分詞器,以及許多強(qiáng)大的分析工具,如 icu_normalizer、icu_folding、icu_collation 等。它使用中文和日文字典,其中包含有關(guān)詞頻的信息,以推斷漢字組。在“手機(jī)”上,一切正常,并且按預(yù)期工作,但在“元宵節(jié)”上,會(huì)產(chǎn)生兩個(gè)詞元:元宵和節(jié)——這是因?yàn)椤霸焙汀肮?jié)”比“元宵節(jié)”更常見(jiàn)。

結(jié)果比較 (表格略,原文已提供)

從我的角度來(lái)看,paodingsmartcn 獲得了最佳結(jié)果。chinese 分詞器非常糟糕,icu_tokenizer 在“元宵節(jié)”上有點(diǎn)令人失望,但在處理繁體中文方面表現(xiàn)非常好。

繁體中文支持

您可能需要處理來(lái)自文檔或用戶搜索請(qǐng)求的繁體中文。您需要一個(gè)規(guī)范化步驟將這些繁體輸入轉(zhuǎn)換為現(xiàn)代中文,因?yàn)橄?smartcnpaoding 這樣的插件無(wú)法正確處理它。

您可以通過(guò)您的應(yīng)用程序進(jìn)行處理,或者嘗試使用 elasticsearch-analysis-stconvert 插件直接在 Elasticsearch 中進(jìn)行處理。它可以雙向轉(zhuǎn)換繁體字和簡(jiǎn)體字。(安裝步驟略,原文已提供)

最后一種解決方案是使用 cjk:如果您無(wú)法正確分詞輸入,您仍然很有可能捕獲所需的文檔,然后使用 icu_tokenizer(也相當(dāng)好)來(lái)提高相關(guān)性。

進(jìn)一步的改進(jìn)

對(duì)于 Elasticsearch 的分析,沒(méi)有完美的萬(wàn)能解決方案,中文也不例外。您必須根據(jù)獲得的信息來(lái)組合和構(gòu)建自己的分析器。例如,我在搜索字段上使用 cjksmartcn 分詞,使用多字段和多匹配查詢。

(FAQ 部分略,原文已提供)

以上是有效的中文搜索與Elasticsearch的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

對(duì)基于PHP的API進(jìn)行版本控制的最佳實(shí)踐是什么? 對(duì)基于PHP的API進(jìn)行版本控制的最佳實(shí)踐是什么? Jun 14, 2025 am 12:27 AM

基于toversionaphp,useUrl deuseUrl specteringforclarityAndEsofRouting,單獨(dú)的codetoavoidConflicts,dremecateOldVersionswithClearCommunication,andConsiderCustomHeadeSerlySerallyWhennEnncelsy.startbyplacingtheversionIntheUrl(E.G.,epi/api/v

如何在PHP中實(shí)施身份驗(yàn)證和授權(quán)? 如何在PHP中實(shí)施身份驗(yàn)證和授權(quán)? Jun 20, 2025 am 01:03 AM

tosecurelyhandleauthenticationandationallizationInphp,lofterTheSesteps:1.AlwaysHashPasswordSwithPassword_hash()andverifyusingspasspassword_verify(),usepreparedStatatementStopreventsqlineptions,andStoreSeruserDatain usseruserDatain $ _sessiveferterlogin.2.implementrole-2.imaccessccsccccccccccccccccccccccccc.

PHP中有哪些弱參考(弱圖),何時(shí)有用? PHP中有哪些弱參考(弱圖),何時(shí)有用? Jun 14, 2025 am 12:25 AM

PHPdoesnothaveabuilt-inWeakMapbutoffersWeakReferenceforsimilarfunctionality.1.WeakReferenceallowsholdingreferenceswithoutpreventinggarbagecollection.2.Itisusefulforcaching,eventlisteners,andmetadatawithoutaffectingobjectlifecycles.3.YoucansimulateaWe

PHP中的程序和面向?qū)ο蟮木幊谭独g有什么區(qū)別? PHP中的程序和面向?qū)ο蟮木幊谭独g有什么區(qū)別? Jun 14, 2025 am 12:25 AM

procemal and object-tiriendedprogromming(oop)inphpdiffersimplessintustructure,可重復(fù)使用性和datahandling.1.procedural-Progrogursmingusesfunctimesfunctionsormanized sequalized sequalized sequiential,poiperforsmallscripts.2.OpporganizesCodeOrganizescodeOdeIntsocloceSandObjects,ModelingReal-Worlden-Worlden

如何在PHP中安全地處理文件上傳? 如何在PHP中安全地處理文件上傳? Jun 19, 2025 am 01:05 AM

要安全處理PHP中的文件上傳,核心在于驗(yàn)證文件類型、重命名文件并限制權(quán)限。1.使用finfo_file()檢查真實(shí)MIME類型,僅允許特定類型如image/jpeg;2.用uniqid()生成隨機(jī)文件名,存儲(chǔ)至非Web根目錄;3.通過(guò)php.ini和HTML表單限制文件大小,設(shè)置目錄權(quán)限為0755;4.使用ClamAV掃描惡意軟件,增強(qiáng)安全性。這些步驟有效防止安全漏洞,確保文件上傳過(guò)程安全可靠。

PHP中==(松散比較)和===(嚴(yán)格的比較)之間有什么區(qū)別? PHP中==(松散比較)和===(嚴(yán)格的比較)之間有什么區(qū)別? Jun 19, 2025 am 01:07 AM

在PHP中,==與===的主要區(qū)別在于類型檢查的嚴(yán)格程度。==在比較前會(huì)進(jìn)行類型轉(zhuǎn)換,例如5=="5"返回true,而===要求值和類型都相同才會(huì)返回true,例如5==="5"返回false。使用場(chǎng)景上,===更安全應(yīng)優(yōu)先使用,==僅在需要類型轉(zhuǎn)換時(shí)使用。

如何與PHP的NOSQL數(shù)據(jù)庫(kù)(例如MongoDB,Redis)進(jìn)行交互? 如何與PHP的NOSQL數(shù)據(jù)庫(kù)(例如MongoDB,Redis)進(jìn)行交互? Jun 19, 2025 am 01:07 AM

是的,PHP可以通過(guò)特定擴(kuò)展或庫(kù)與MongoDB和Redis等NoSQL數(shù)據(jù)庫(kù)交互。首先,使用MongoDBPHP驅(qū)動(dòng)(通過(guò)PECL或Composer安裝)創(chuàng)建客戶端實(shí)例并操作數(shù)據(jù)庫(kù)及集合,支持插入、查詢、聚合等操作;其次,使用Predis庫(kù)或phpredis擴(kuò)展連接Redis,執(zhí)行鍵值設(shè)置與獲取,推薦phpredis用于高性能場(chǎng)景,Predis則便于快速部署;兩者均適用于生產(chǎn)環(huán)境且文檔完善。

如何在PHP( - , *, /,%)中執(zhí)行算術(shù)操作? 如何在PHP( - , *, /,%)中執(zhí)行算術(shù)操作? Jun 19, 2025 pm 05:13 PM

PHP中使用基本數(shù)學(xué)運(yùn)算的方法如下:1.加法用 號(hào),支持整數(shù)和浮點(diǎn)數(shù),也可用于變量,字符串?dāng)?shù)字會(huì)自動(dòng)轉(zhuǎn)換但不推薦依賴;2.減法用-號(hào),變量同理,類型轉(zhuǎn)換同樣適用;3.乘法用*號(hào),適用于數(shù)字及類似字符串;4.除法用/號(hào),需避免除以零,并注意結(jié)果可能是浮點(diǎn)數(shù);5.取模用%號(hào),可用于判斷奇偶數(shù),處理負(fù)數(shù)時(shí)余數(shù)符號(hào)與被除數(shù)一致。正確使用這些運(yùn)算符的關(guān)鍵在于確保數(shù)據(jù)類型清晰并處理好邊界情況。

See all articles