以下の例に示すように、MYSQL DB に特殊文字を主にデータベースの名と姓の列に挿入しました。
<強(qiáng)>1. ??バルパイサブ
<強(qiáng)>2. ??????????????????????????°????????????????????????? ???????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
効果的なケース:
*サウラブ?シュリー
S.シュリー
T.M.アンソニー
チャールズ?バベッジ?シニア*
長さは可変です。すべて大文字と小文字が區(qū)別されず、末尾のスペースはありません。連続する 2 つの単語の間にはスペースとピリオド のみが使用できます。
正規(guī)表現(xiàn)の投稿を調(diào)べ、列とテーブルの照合順序を utfmb4_unicode_ci に変更し、regexp を適用しましたが、うまくいきませんでした。
約 700 萬件のレコードを 1 文字でも検索する必要がありました。
リーリーこれは私のコードです:
ああああこれには質(zhì)問の中で「2」が必要ですが、何か手がかりが得られるかどうかは疑問です:
##### ? ?????????? ? §? ? ? ? ° ??????? ? ?????????? ? ¤ ? §? ???16 進(jìn)文字列の 1 つについては、次のようになります。
変換 (UNHEX('E0A69DE0A6A8E0A78DE0A69FE0A78120E0A6B8E0A6B0E0A695E0A6BEE0A6B0') utf8mb4 を使用)
ジャントゥ?サーカールをプロデュース
正規(guī)表現(xiàn)の場合は、
のようなものを検討してください。
HEX(列) REGEXP '^(..)*[89ABCDEF]'これにより、文字列內(nèi)のバイトに非 Ascii 8 ビット コードが含まれているかどうかが検出されます。
これは混合物です:
CONVERT(UNHEX('53554B444542205341524B4152E0A6AA') USING utf8mb4) --> 'SUKDEB SARKAR?'
つまり、これは Ascii ですが、末尾にベンガル語の「PA」が付いています。実は、ご覧の「SUKDEB SARKARàè」は文字化けのロゴです。 Mojibake (およびその他の一般的な混亂) については、次を參照してください: