


面試題 & 真實經(jīng)歷
面試題:在數(shù)據(jù)量很大的情況下,怎么實現(xiàn)深度分頁?
大家在面試時,或者準備面試中可能會遇到上述的問題,大多的回答基本上是分庫分表建索引,這是一種很標準的正確回答,但現(xiàn)實總是很骨感,所以面試官一般會追問你一句,現(xiàn)在工期不足,人員不足,該怎么實現(xiàn)深度分頁?
這個時候沒有實際經(jīng)驗的同學基本麻爪,So,請聽我娓娓道來。
慘痛的教訓
首先必須明確一點:深度分頁可以做,但是深度隨機跳頁絕對需要禁止。
上一張圖:
你們猜,我點一下第142360頁,服務會不會爆炸?
像MySQL,MongoDB數(shù)據(jù)庫還好,本身就是專業(yè)的數(shù)據(jù)庫,處理的不好,最多就是慢,但如果涉及到ES,性質(zhì)就不一樣了,我們不得不利用 SearchAfter Api,去循環(huán)獲取數(shù)據(jù),這就牽扯到內(nèi)存占用的問題,如果當時代碼寫的不優(yōu)雅,直接就可能導致內(nèi)存溢出。
為什么不能允許隨機深度跳頁
從技術(shù)的角度淺顯的聊一聊為什么不能允許隨機深度跳頁,或者說為什么不建議深度分頁
MySQL
分頁的基本原理:
SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;
LIMIT 10000 , 20的意思掃描滿足條件的10020行,扔掉前面的10000行,返回最后的20行。如果是LIMIT 1000000 , 100,需要掃描1000100 行,在一個高并發(fā)的應用里,每次查詢需要掃描超過100W行,不炸才怪。
MongoDB
分頁的基本原理:
db.t_data.find().limit(5).skip(5);
同樣的,隨著頁碼的增大,skip 跳過的條目也會隨之變大,而這個操作是通過 cursor 的迭代器來實現(xiàn)的,對于cpu的消耗會非常明顯,當頁碼非常大時且頻繁時,必然爆炸。
ElasticSearch
從業(yè)務的角度來說,ElasticSearch不是典型的數(shù)據(jù)庫,它是一個搜索引擎,如果在篩選條件下沒有搜索出想要的數(shù)據(jù),繼續(xù)深度分頁也不會找到想要的數(shù)據(jù),退一步講,假如我們把ES作為數(shù)據(jù)庫來使用進行查詢,在進行分頁的時候一定會遇到max_result_window 的限制,看到?jīng)],官方都告訴你最大偏移量限制是一萬。
查詢流程:
如查詢第501頁,每頁10條,客戶端發(fā)送請求到某節(jié)點
此節(jié)點將數(shù)據(jù)廣播到各個分片,各分片各自查詢前 5010 條數(shù)據(jù)
查詢結(jié)果返回至該節(jié)點,然后對數(shù)據(jù)進行整合,取出前 5010 條數(shù)據(jù)
返回給客戶端
由此可以看出為什么要限制偏移量,另外,如果使用 Search After 這種滾動式API進行深度跳頁查詢,也是一樣需要每次滾動幾千條,可能一共需要滾動上百萬,千萬條數(shù)據(jù),就為了最后的20條數(shù)據(jù),效率可想而知。
再次和產(chǎn)品對線
俗話說的好,技術(shù)解決不了的問題,就由業(yè)務來解決!
在實習的時候信了產(chǎn)品的邪,必須實現(xiàn)深度分頁 + 跳頁,如今必須撥亂反正,業(yè)務上必須有如下更改:
盡可能的增加默認的篩選條件,如:時間周期,目的是為了減少數(shù)據(jù)量的展示
修改跳頁的展現(xiàn)方式,改為滾動顯示,或小范圍跳頁
滾動顯示參考圖:
小規(guī)模跳頁參考圖:
通用解決方案
短時間內(nèi)快速解決的方案主要是以下幾點:
必備:對排序字段,篩選條件務必設(shè)置好索引
核心:利用小范圍頁碼的已知數(shù)據(jù),或者滾動加載的已知數(shù)據(jù),減少偏移量
額外:如果遇到不好處理的情況,也可以獲取多余的數(shù)據(jù),進行一定的截取,性能影響并不大
MySQL
原分頁SQL:
# 第一頁 SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20; # 第N頁 SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;
通過上下文關(guān)系,改寫為:
# XXXX 代表已知的數(shù)據(jù) SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;
在 沒內(nèi)鬼,來點干貨!SQL優(yōu)化和診斷 一文中提到過,LIMIT會在滿足條件下停止查詢,因此該方案的掃描總量會急劇減少,效率提升Max!
ES
方案和MySQL相同,此時我們就可以隨用所欲的使用 FROM-TO Api,而且不用考慮最大限制的問題。
MongoDB
方案基本類似,基本代碼如下:
相關(guān)性能測試:
如果非要深度隨機跳頁
如果你沒有杠過產(chǎn)品經(jīng)理,又該怎么辦呢,沒關(guān)系,還有一絲絲的機會。
在 SQL優(yōu)化 一文中還提到過MySQL深度分頁的處理技巧,代碼如下:
# 反例(耗時129.570s) select * from task_result LIMIT 20000000, 10; # 正例(耗時5.114s) SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id; # 說明 # task_result表為生產(chǎn)環(huán)境的一個表,總數(shù)據(jù)量為3400萬,id為主鍵,偏移量達到2000萬
該方案的核心邏輯即基于聚簇索引,在不通過回表的情況下,快速拿到指定偏移量數(shù)據(jù)的主鍵ID,然后利用聚簇索引進行回表查詢,此時總量僅為10條,效率很高。
因此我們在處理MySQL,ES,MongoDB時,也可以采用一樣的辦法:
限制獲取的字段,只通過篩選條件,深度分頁獲取主鍵ID
通過主鍵ID定向查詢需要的數(shù)據(jù)
瑕疵:當偏移量非常大時,耗時較長,如文中的 5s
推薦教程:《MySQL教程》
文章來源:https://juejin.im/post/5f0de4d06fb9a07e8a19a641
Atas ialah kandungan terperinci 如何兼容 MySQL + ES + MongoDB 實現(xiàn)上億數(shù)據(jù)的深度分頁?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

1. 2. Prestasi tinggi memerlukan pergantungan pada cache (redis), pengoptimuman pangkalan data, CDN dan giliran tak segerak; 3. Keselamatan mesti dilakukan dengan penapisan input, perlindungan CSRF, HTTPS, penyulitan kata laluan dan kawalan kebenaran; 4. Pengiklanan pilihan wang, langganan ahli, ganjaran, komisen, pembayaran pengetahuan dan model lain, terasnya adalah untuk memadankan nada komuniti dan keperluan pengguna.

Terdapat tiga cara utama untuk menetapkan pembolehubah persekitaran dalam PHP: 1. Konfigurasi global melalui php.ini; 2. Melalui pelayan web (seperti setenv Apache atau fastcgi_param of nginx); 3. Gunakan fungsi Putenv () dalam skrip PHP. Antaranya, php.ini sesuai untuk konfigurasi global dan jarang mengubah konfigurasi, konfigurasi pelayan web sesuai untuk senario yang perlu diasingkan, dan putenv () sesuai untuk pembolehubah sementara. Dasar kegigihan termasuk fail konfigurasi (seperti php.ini atau konfigurasi pelayan web), fail .Env dimuatkan dengan perpustakaan dotenv, dan suntikan dinamik pembolehubah dalam proses CI/CD. Maklumat sensitif pengurusan keselamatan harus dielakkan dengan keras, dan disyorkan untuk digunakan.

Untuk mencapai automasi penempatan MySQL, kunci adalah menggunakan Terraform untuk menentukan sumber, konfigurasi pengurusan ansible, Git untuk kawalan versi, dan mengukuhkan pengurusan keselamatan dan kebenaran. 1. Gunakan Terraform untuk menentukan contoh MySQL, seperti versi, jenis, kawalan akses dan atribut sumber lain AWSRDS; 2. Gunakan AnsiblePlayBook untuk merealisasikan konfigurasi terperinci seperti penciptaan pengguna pangkalan data, tetapan kebenaran, dan lain -lain; 3. Semua fail konfigurasi dimasukkan dalam pengurusan Git, pengesanan perubahan sokongan dan pembangunan kolaboratif; 4. Elakkan maklumat sensitif keras, gunakan Vault atau Ansiblevault untuk menguruskan kata laluan, dan tetapkan kawalan akses dan prinsip kebenaran minimum.

Mengapa saya memerlukan penyulitan SSL/TLS MySQL Connection? Kerana sambungan yang tidak disulitkan boleh menyebabkan data sensitif dipintas, membolehkan SSL/TLS dapat menghalang serangan manusia-dalam-pertengahan dan memenuhi keperluan pematuhan; 2. Bagaimana untuk mengkonfigurasi SSL/TLS untuk MySQL? Anda perlu menjana sijil dan kunci peribadi, mengubah suai fail konfigurasi untuk menentukan laluan SSL-CA, SSL-CERT dan SSL dan memulakan semula perkhidmatan; 3. Bagaimana untuk memaksa SSL apabila pelanggan menghubungkan? Dilaksanakan dengan menyatakan keperluan atau keperluan yang diperlukan semasa membuat pengguna; 4. Butiran yang mudah diabaikan dalam konfigurasi SSL termasuk kebenaran laluan sijil, isu tamat sijil, dan keperluan konfigurasi pelanggan.

Untuk mengumpul data tingkah laku pengguna, anda perlu merakam pelayaran, mencari, membeli dan maklumat lain ke dalam pangkalan data melalui PHP, dan membersihkan dan menganalisisnya untuk meneroka keutamaan minat; 2. Pemilihan algoritma cadangan harus ditentukan berdasarkan ciri -ciri data: berdasarkan kandungan, penapisan kolaboratif, peraturan atau cadangan campuran; 3. Penapisan kolaboratif boleh dilaksanakan di PHP untuk mengira kesamaan kosinus pengguna, pilih K jiran terdekat, skor ramalan berwajaran dan mengesyorkan produk pemarkahan tinggi; 4. Penilaian prestasi menggunakan ketepatan, ingat, nilai F1 dan CTR, kadar penukaran dan sahkan kesan melalui ujian A/B; 5. Masalah permulaan sejuk boleh dikurangkan melalui atribut produk, maklumat pendaftaran pengguna, cadangan popular dan penilaian pakar; 6. Kaedah Pengoptimuman Prestasi termasuk hasil cadangan cache, pemprosesan tak segerak, pengkomputeran yang diedarkan dan pengoptimuman pertanyaan SQL, dengan itu meningkatkan kecekapan cadangan dan pengalaman pengguna.

Apabila memilih rangka kerja PHP yang sesuai, anda perlu mempertimbangkan secara komprehensif mengikut keperluan projek: Laravel sesuai untuk pembangunan pesat dan menyediakan enjin template eloquentorm dan bilah, yang mudah untuk operasi pangkalan data dan rendering bentuk dinamik; Symfony lebih fleksibel dan sesuai untuk sistem kompleks; Codeigniter adalah ringan dan sesuai untuk aplikasi mudah dengan keperluan prestasi tinggi. 2. Untuk memastikan ketepatan model AI, kita perlu memulakan dengan latihan data berkualiti tinggi, pemilihan penunjuk penilaian yang munasabah (seperti ketepatan, penarikan balik, nilai F1), penilaian prestasi biasa dan penalaan model, dan memastikan kualiti kod melalui ujian unit dan ujian integrasi, sambil terus memantau data input untuk mencegah data drift. 3. Banyak langkah diperlukan untuk melindungi privasi pengguna: menyulitkan dan menyimpan data sensitif (seperti AES

PHP memainkan peranan penyambung dan pusat otak dalam perkhidmatan pelanggan pintar, yang bertanggungjawab untuk menyambungkan input depan, penyimpanan pangkalan data dan perkhidmatan AI luaran; 2. Apabila melaksanakannya, adalah perlu untuk membina seni bina berbilang lapisan: front-end menerima mesej pengguna, preprocesses dan permintaan PHP back-end permintaan, pertama sepadan dengan asas pengetahuan tempatan, dan terlepas, panggil perkhidmatan AI luaran seperti OpenAI atau Dialogflow untuk mendapatkan balasan pintar; 3. Pengurusan Sesi ditulis kepada MySQL dan pangkalan data lain oleh PHP untuk memastikan kesinambungan konteks; 4. Perkhidmatan AI bersepadu perlu menggunakan Guzzle untuk menghantar permintaan HTTP, selamat menyimpan Apikeys, dan melakukan kerja yang baik untuk pemprosesan ralat dan analisis tindak balas; 5. Reka bentuk pangkalan data mesti termasuk sesi, mesej, pangkalan pengetahuan, dan jadual pengguna, dengan munasabah membina indeks, memastikan keselamatan dan prestasi, dan menyokong memori robot

Untuk membolehkan bekas PHP menyokong pembinaan automatik, terasnya terletak pada mengkonfigurasi proses integrasi berterusan (CI). 1. Gunakan Dockerfile untuk menentukan persekitaran PHP, termasuk imej asas, pemasangan lanjutan, pengurusan ketergantungan dan tetapan kebenaran; 2. Konfigurasi alat CI/CD seperti Gitlabci, dan tentukan peringkat binaan, ujian dan penempatan melalui fail .gitlab-ci.yml untuk mencapai pembinaan, pengujian dan penggunaan automatik; 3. Mengintegrasikan kerangka ujian seperti PHPUnit untuk memastikan ujian secara automatik dijalankan selepas perubahan kod; 4. Gunakan strategi penempatan automatik seperti Kubernet untuk menentukan konfigurasi penempatan melalui fail penyebaran.yaml; 5. Mengoptimumkan Dockerfile dan mengamalkan pembinaan pelbagai peringkat
