国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ バックエンド開発 PHPチュートリアル ElasticSearchを使用した効率的な中國の検索

ElasticSearchを使用した効率的な中國の検索

Feb 19, 2025 am 08:28 AM

elasticsearch中國語検索:アナライザーとベストプラクティス

特に英語以外の言語を扱う場合、

分析と辭書化は、Elasticsearchのコンテンツインデックスにおいて重要です。中國人にとって、このプロセスは、漢字の特性と単語と文の間のスペースの欠如のためにさらに複雑です。

この記事では、デフォルトの中國のアナライザー、貧困プラグイン、CJKアナライザー、SmartCNアナライザー、ICUプラグインなど、ElasticSearchの中國コンテンツを分析するためのいくつかのソリューションについて説明し、その利點と短所と適用シナリオを分析します。

中國の検索の課題

漢字は、単語または形態(tài)素(言語で最小の意味のある?yún)g位)を表す表意文字です。結(jié)合すると、その意味は変化し、完全に新しい単語を表します。もう1つの困難は、単語と文の間にスペースがないことです。これにより、コンピューターが単語の始まりと終了場所を知ることが困難になります。

マンダリン(中國語公式言語と世界で最も広く使用されている中國語)のみを考慮しても、実際に中國語を書いていても、3?4,000人を知る必要があります。漢字。たとえば、「火山」(火山)は、実際には次の2つの漢字の組み合わせです。

火:火
  • 山:山
  • 私たちの単語分詞は、これらの2つの漢字を分離するのを避けるのに十分賢くなければなりません。なぜなら、その意味は分離されているときとは異なるからです。

もう1つの難しさは、使用されるスペルバリアントです:

単純化された中國人:書道
  • 伝統(tǒng)的な中國人、より複雑で豊かな:帳簿
  • ピンイン、マンダリンのロマン化された形:shūfǎ
  • ElasticSearchの中國人アナライザー
現(xiàn)在、Elasticsearchは次の中國の分析裝置を提供します: Lucene 4の非推奨クラスに基づいて、デフォルト

アナライザー

    プラグインは、もはや維持されていませんが、非常に優(yōu)れた辭書に基づいています
  • Chineseアナライザー、
  • paodingアナライザー、正式にサポートされているプラ??グイン
  • ICUプラグインとその単語セグメンテーションデバイス。
  • cjk
  • これらのアナライザーは大きく異なり、そのパフォーマンスを単純なテスト単語「攜帯電話」と比較します。 「攜帯電話」とは、「攜帯電話」を意味します。これは、「ハンド」と「モバイル」を表す2つの漢字で構(gòu)成されています。 「ji」という言葉は、他の多くの単語も構(gòu)成します:
  • smartcn
  • フライト:航空券
  • ロボット:ロボット

機(jī)関銃:機(jī)関銃

    機(jī)會:機(jī)會
  • 「攜帯電話」を検索した場合、Ramboが機(jī)関銃を所有していることに関するドキュメントが必要ないため、 強(qiáng)力な
  • APIを使用してこれらのソリューションをテストします。
  • デフォルトChineseアナライザー:すべての漢字を単語要素に分割するだけです。したがって、攜帯電話と攜帯電話の2つの語彙要素が得られます。 ElasticSearchのstandardアナライザーは、まったく同じ出力を生成します。したがって、Chineseは非推奨であり、まもなくstandardに置き換えられ、避ける必要があります。

  • paodingプラグイン:paodingほとんど業(yè)界標(biāo)準(zhǔn)であり、エレガントなソリューションと見なされます。殘念ながら、ElasticSearchのプラグインは維持されておらず、いくつかの変更後にバージョン1.0.1でのみ実行できます。 (インストール手順は省略されており、元のテキストが提供されます)インストール後、新しいpaodingワードセグメントターと2つのコレクターの2つのコレクターを取得します。デフォルトでは、パブリックアナライザーがないため、新しいアナライザーを宣言する必要があります。 (構(gòu)成手順は省略され、元のテキストが提供されます)両方の構(gòu)成は、明確で一意の語彙要素で良い結(jié)果を提供します。また、より複雑な文を扱うときも非常にうまく振る舞います。 max_word_len most_word

  • アナライザー:テキストのみをバイナリに変換する非常に簡単なアナライザー。 「攜帯電話」はcjkのみですが、これは良いことですが、「ランタンフェスティバル」(ランタンフェスティバル)などの長い単語を使用すると、ランタンフェスティバルとXiaoフェスティバルの2つの単語が生成されます。それぞれ「Xiao Festival」。 手機(jī)

  • プラグイン:非常に簡単にインストールできます。 (インストール手順は省略されており、元のテキストが提供されています)Luceneのsmartcnを使用して、新しいAnalyzerとsmartcn wordセグメントターを公開します。確率スイートを使用して、非表示のマルコフモデルと大量のトレーニングテキストを使用して、単語の最適なセグメンテーションを見つけます。したがって、かなり優(yōu)れたトレーニング辭書が組み込まれています。私たちの例は正確に分解されています。 smartcn_tokenizer SmartChineseAnalyzer

  • ICUプラグイン:

    別の公式プラグイン。 (インストール手順は省略されており、元のテキストが提供されます)英語以外の言語を扱う場合は、このプラグインを使用することをお勧めします。 、icu_tokenizer、icu_normalizerなどの多くの強(qiáng)力な分析ツールと、icu_folding単語セグメントターを開示します。単語頻度に関する情報を含む中國語と日本の辭書を使用して、漢字グループを推測します。 「攜帯電話」では、すべてが正常であり、期待どおりに機(jī)能しますが、「ランタンフェスティバル」では、ランタンフェスティバルとフェスティバルの2つの単語が制作されます。これは、「ランタンフェスティバル」と「フェスティバル」が「ランタンフェスティバル」よりも重要だからです。 "。 一般。 icu_collation

結(jié)果の比較(省略されたフォーム、元のテキストが提供) 私の観點からは、

が最良の結(jié)果を得ました。 paoding分詞という言葉は非常に悪いです、smartcnは「ランタンフェスティバル」で少しがっかりしていますが、伝統(tǒng)的な中國人に対処するのは非常に得意です。 chinese icu_tokenizer

伝統(tǒng)的な中國の支持

ドキュメントまたはユーザー検索リクエストから従來の中國語を処理する必要がある場合があります。これらの従來の入力を現(xiàn)代の中國語に変換するための正規(guī)化ステップが必要です。smartcnpaodingなどのプラグインが正しく処理しないためです。

アプリケーションを介して処理するか、elasticsearch-analysis-stconvertプラグインを使用してElasticSearchで直接処理してみてください。従來のキャラクターと単純化されたキャラクターを両方向に変換できます。 (インストール手順は省略されており、元のテキストが提供されています)

最後のソリューションは、cjk:正しく分詞を入力できない場合、必要なドキュメントをキャプチャしてからicu_tokenizer(非常に良い)を使用して関連性を向上させる可能性が非常に高いです。

さらなる改善

ElasticSearch分析に最適な普遍的なソリューションはありません。また、中國語も例外ではありません。取得した情報に基づいて、獨自のアナライザーを組み合わせて構(gòu)築する必要があります。たとえば、マルチフィールドとマルチマッチクエリを使用して、検索フィールドにcjkおよびsmartcn分詞を使用します。

(FAQパートが省略され、元のテキストが提供)

以上がElasticSearchを使用した効率的な中國の検索の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPベースのAPIをバージョン化するためのベストプラクティスは何ですか? PHPベースのAPIをバージョン化するためのベストプラクティスは何ですか? Jun 14, 2025 am 12:27 AM

Toversionaphp Basedificefectivivivity、useurl Basedversioning forclarity-andeaseaseasedease、depateversionedcodetoavoidconflicts、deprecateoldversions withclearcommunication、andconsider-customheadersally whendary.starttheversionionintheurl(e.g。、/api/v

PHPに認(rèn)証と承認(rèn)を?qū)g裝するにはどうすればよいですか? PHPに認(rèn)証と承認(rèn)を?qū)g裝するにはどうすればよいですか? Jun 20, 2025 am 01:03 AM

tosecurelyhandLeauthenticationAndauthorizationInizationInization、followTheSteps:1.LwayShashPasswordswithPassword_hash()andverifyusingpassword_verify()、usepreparedStatementStatementStatementStatementStatementStain、andstoreUserdatain $ _SessionAfterlogin.2.implementRementRementRementRementRementRementRementRole

PHPの弱い參照(WeakMap)とは何ですか? PHPの弱い參照(WeakMap)とは何ですか? Jun 14, 2025 am 12:25 AM

phpdoesnothaveabuiltinweakmapbutofferswutreferenceforsimilarfunctionality.1.weakreferenceallowsholdingReferences withoutpreventinggarbagecollectrection.2.itisusfulfurcaching、eventlisteners、およびmetadatawithectingovecting objectinimulatea

PHPにおける手続き型とオブジェクト指向のプログラミングパラダイムの違いは何ですか? PHPにおける手続き型とオブジェクト指向のプログラミングパラダイムの違いは何ですか? Jun 14, 2025 am 12:25 AM

ProceduralAndObject-OrientedProgramming(OOP)InphpdifferSifically-datability、andDatahandling.1.proceduralprogramsessusessuseSideSized funized、surtableforsmallscript.2.ooporganizescodeIntoclassesandobjects、ModelingReal-worden

PHPでファイルアップロードを安全に処理するにはどうすればよいですか? PHPでファイルアップロードを安全に処理するにはどうすればよいですか? Jun 19, 2025 am 01:05 AM

PHPでファイルアップロードを安全に処理するために、コアはファイルタイプを確認(rèn)し、ファイルの名前を変更し、権限を制限することです。 1。Finfo_File()を使用して実際のMIMEタイプを確認(rèn)し、Image/JPEGなどの特定のタイプのみが許可されます。 2。uniqid()を使用してランダムファイル名を生成し、非webルートディレクトリに保存します。 3. PHP.iniおよびHTMLフォームを介してファイルサイズを制限し、ディレクトリ権限を0755に設(shè)定します。 4. Clamavを使用してマルウェアをスキャンしてセキュリティを強(qiáng)化します。これらの手順は、セキュリティの脆弱性を効果的に防止し、ファイルのアップロードプロセスが安全で信頼性が高いことを確認(rèn)します。

PHPの==(ゆるい比較)と===(厳密な比較)の違いは何ですか? PHPの==(ゆるい比較)と===(厳密な比較)の違いは何ですか? Jun 19, 2025 am 01:07 AM

PHPでは、==と==の主な違いは、タイプチェックの厳格さです。 ==タイプ変換は比較の前に実行されます。たとえば、5 == "5"はtrueを返します。===リクエストは、trueが返される前に値とタイプが同じであることを要求します。たとえば、5 === "5"はfalseを返します。使用シナリオでは、===はより安全で、最初に使用する必要があります。==は、タイプ変換が必要な場合にのみ使用されます。

PHPのNOSQLデータベース(Mongodb、Redisなど)とどのように対話できますか? PHPのNOSQLデータベース(Mongodb、Redisなど)とどのように対話できますか? Jun 19, 2025 am 01:07 AM

はい、PHPは、特定の拡張機(jī)能またはライブラリを使用して、MongoDBやRedisなどのNOSQLデータベースと対話できます。まず、MongoDBPHPドライバー(PECLまたはComposerを介してインストール)を使用して、クライアントインスタンスを作成し、データベースとコレクションを操作し、挿入、クエリ、集約、その他の操作をサポートします。第二に、PredisライブラリまたはPhpredis拡張機(jī)能を使用してRedisに接続し、キー価値設(shè)定と取得を?qū)g行し、高性能シナリオにPhpredisを推奨しますが、Predisは迅速な展開に便利です。どちらも生産環(huán)境に適しており、十分に文書化されています。

PHP(、 - 、 *、 /、%)で算術(shù)操作を?qū)g行するにはどうすればよいですか? PHP(、 - 、 *、 /、%)で算術(shù)操作を?qū)g行するにはどうすればよいですか? Jun 19, 2025 pm 05:13 PM

PHPで基本的な數(shù)學(xué)操作を使用する方法は次のとおりです。1。追加標(biāo)識は、整數(shù)と浮動小數(shù)點數(shù)をサポートし、変數(shù)にも使用できます。文字列番號は自動的に変換されますが、依存関係には推奨されません。 2。減算標(biāo)識の使用 - 標(biāo)識、変數(shù)は同じであり、タイプ変換も適用されます。 3.乗算サインは、數(shù)字や類似の文字列に適した標(biāo)識を使用します。 4.分割はゼロで割らないようにする必要がある分割 /標(biāo)識を使用し、結(jié)果は浮動小數(shù)點數(shù)である可能性があることに注意してください。 5.モジュラス標(biāo)識を採取することは、奇妙な數(shù)と偶數(shù)を判斷するために使用でき、負(fù)の數(shù)を処理する場合、殘りの兆候は配當(dāng)と一致しています。これらの演算子を正しく使用するための鍵は、データ型が明確であり、境界の狀況がうまく処理されるようにすることです。

See all articles