


Comment sélectionner efficacement des lignes aléatoires à partir de grandes tables PostgreSQL??
Jan 21, 2025 am 05:26 AMMéthode de sélection de lignes aléatoires PostgreSQL
Les méthodes traditionnelles de sélection de lignes aléatoires sont inefficaces et lentes lorsqu'il s'agit de grandes tables contenant des millions, voire des milliards d'enregistrements. Deux méthodes courantes sont?:
-
Utilisez
random()
pour filtrer?:select * from table where random() < 0.001;
-
Utilisez
order by random()
etlimit
?:select * from table order by random() limit 1000;
Cependant, en raison de la nécessité d'une analyse ou d'un tri complet de la table, ces méthodes ne sont pas le meilleur choix pour les tables comportant un grand nombre de lignes et entra?neront des goulots d'étranglement en termes de performances.
Méthodes d'optimisation pour les grandes tables
Pour les types de tableaux suivants, considérez la méthode d'optimisation suivante, qui est nettement plus rapide?:
- Colonnes d'identification numérique avec des espaces petits ou moyens (indexées pour des recherches plus rapides)
- Pas ou peu d'opérations d'écriture lors de la sélection
Requête?:
WITH params AS ( SELECT 1 AS min_id, -- 可選:自定義最小ID起始值 5100000 AS id_span -- 近似ID范圍(最大ID - 最小ID + 緩沖) ) SELECT * FROM ( SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id FROM params p, generate_series(1, 1100) g GROUP BY 1 ) r INNER JOIN big ON r.id = big.id LIMIT 1000;
Comment ?a marche?:
-
Estimation de la plage d'identification?:
- Si vous ne savez pas exactement, interrogez le tableau pour estimer l'étendue minimale, maximale et totale (max - min) de la colonne ID.
-
Génération d'ID aléatoire?:
- Générez un ensemble différent de nombres aléatoires dans la plage d'identification estimée.
-
élimination des redondances et des doublons?:
- Regroupez les numéros générés pour supprimer les doublons, réduisant ainsi la possibilité de sélectionner des lignes manquantes ou des lignes déjà sélectionnées.
-
Jointures et restrictions de tables?:
- Joignez les nombres aléatoires au tableau réel en utilisant la colonne ID (doit être indexé). Cette jointure efficace récupère les données correspondantes pour la ligne sélectionnée.
- Enfin, appliquez une limite pour récupérer le nombre de lignes requis.
Pourquoi c'est rapide?:
-
Utilisation minimale de l'index?:
- La requête effectue uniquement une analyse d'index sur la colonne ID, ce qui est beaucoup plus rapide qu'une analyse de table complète ou une opération de tri.
-
Génération de nombres aléatoires optimisée?:
- Les nombres aléatoires générés sont répartis sur la plage d'ID estimée, minimisant ainsi la possibilité de lignes manquantes ou se chevauchant.
-
élimination des redondances et des doublons?:
- Le regroupement des nombres générés garantit que seules des lignes distinctes sont sélectionnées, réduisant ainsi le besoin de filtrage ou de jointure supplémentaire pour éliminer les doublons.
Autres options?:
-
CTE récursif pour gérer les lacunes?:
- Pour les tables présentant des lacunes dans la séquence d'identification, ajoutez un CTE supplémentaire pour gérer ces lacunes.
-
Wrappers de fonctions à réutiliser?:
- Définissez une fonction qui prend la limite et le pourcentage d'écart comme paramètres, permettant une configuration et une réutilisation faciles avec différentes tables.
-
Fonctions universelles pour n'importe quelle table?:
- Créez une fonction générique qui accepte n'importe quelle table avec des colonnes entières comme paramètre.
-
Matérialiser les vues pour plus de rapidité?:
- Envisagez de créer une vue matérialisée basée sur une requête optimisée pour une récupération plus rapide des lignes sélectionnées (quasi) aléatoirement.
-
TABLE SAMPLE
dans PostgreSQL 9.5?:- Exploitez la fonctionnalité "
TABLE SAMPLE SYSTEM
" de PostgreSQL pour implémenter une méthode d'échantillonnage de lignes plus rapide mais moins aléatoire, garantissant qu'un nombre précis de lignes est renvoyé. Cependant, gardez à l’esprit que l’échantillon peut ne pas être complètement aléatoire en raison des effets de regroupement.
- Exploitez la fonctionnalité "
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

La fa?on la plus directe de se connecter à la base de données MySQL consiste à utiliser le client de la ligne de commande. Entrez d'abord le nom d'utilisateur MySQL-U -P et entrez correctement le mot de passe pour entrer l'interface interactive; Si vous vous connectez à la base de données distante, vous devez ajouter le paramètre -H pour spécifier l'adresse h?te. Deuxièmement, vous pouvez directement passer à une base de données spécifique ou exécuter des fichiers SQL lors de la connexion, tels que le nom de la base de données MySQL-U Username-P ou le nom de la base de données MySQL-U Username-P-P

Les problèmes de règles de jeu de caractères et de tri sont courants lors de la migration multiplateforme ou du développement multi-personnes, entra?nant un code brouillé ou une requête incohérente. Il existe trois solutions principales: d'abord, vérifiez et unifiez le jeu de caractères de la base de données, de la table et des champs vers UTF8MB4, affichez via ShowCreateDatabase / Table, et modifiez-le avec une instruction alter; Deuxièmement, spécifiez le jeu de caractères UTF8MB4 lorsque le client se connecte et le définissez dans les paramètres de connexion ou exécutez SetNames; Troisièmement, sélectionnez les règles de tri raisonnablement et recommandez d'utiliser UTF8MB4_UNICODE_CI pour assurer la précision de la comparaison et du tri, et spécifiez ou modifiez-la via ALTER lors de la construction de la bibliothèque et du tableau.

MySQL prend en charge le traitement des transactions et utilise le moteur de stockage InNODB pour garantir la cohérence et l'intégrité des données. 1. Les transactions sont un ensemble d'opérations SQL, soit tous réussissent ou ne parviennent pas à reculer; 2. Les attributs acides comprennent l'atomicité, la cohérence, l'isolement et la persistance; 3. Les déclarations qui contr?lent manuellement les transactions sont StartTransaction, Commit and Rollback; 4. Les quatre niveaux d'isolement incluent la lecture non engagée, la lecture soumise, la lecture reproductible et la sérialisation; 5. Utilisez correctement les transactions pour éviter le fonctionnement à long terme, désactiver les validations automatiques et gérer raisonnablement les verrous et les exceptions. Grace à ces mécanismes, MySQL peut obtenir une forte fiabilité et un contr?le simultané.

Le réglage des jeux de caractères et des règles de collation dans MySQL est crucial, affectant le stockage des données, l'efficacité de la requête et la cohérence. Premièrement, le jeu de caractères détermine la gamme de caractères storable, telle que UTF8MB4 prend en charge les chinois et les emojis; Les règles de tri contr?lent la méthode de comparaison des caractères, telle que UTF8MB4_UNICODE_CI est sensible à la casse, et UTF8MB4_BIN est une comparaison binaire. Deuxièmement, le jeu de caractères peut être défini à plusieurs niveaux de serveur, de base de données, de table et de colonne. Il est recommandé d'utiliser UTF8MB4 et UTF8MB4_UNICODE_CI de manière unifiée pour éviter les conflits. En outre, le problème du code brouillé est souvent causé par des jeux de caractères incohérents de connexions, de stockage ou de terminaux de programme, et doit être vérifié par calque par calque et définir uniformément. De plus, les ensembles de caractères doivent être spécifiés lors de l'exportation et de l'importation pour éviter les erreurs de conversion

Les CTES sont une fonctionnalité introduite par MySQL8.0 pour améliorer la lisibilité et la maintenance des requêtes complexes. 1. CTE est un ensemble de résultats temporaire, qui n'est valable que dans la requête actuelle, a une structure claire et prend en charge les références en double; 2. Comparé aux sous-requêtes, le CTE est plus lisible, réutilisable et prend en charge la récursivité; 3. Le CTE récursif peut traiter les données hiérarchiques, telles que la structure organisationnelle, qui doit inclure des requêtes initiales et des pièces de récursivité; 4. Les suggestions d'utilisation incluent l'évitement de l'abus, la dénomination des spécifications, la prête d'attention aux performances et aux méthodes de débogage.

L'optimisation des performances de la requête MySQL doit partir des points principaux, y compris l'utilisation rationnelle des index, l'optimisation des instructions SQL, la conception de la structure de table et les stratégies de partitionnement, et l'utilisation des outils de cache et de surveillance. 1. Utiliser les index raisonnablement: créer des index sur les champs de requête couramment utilisés, éviter la numérisation complète de la table, faire attention à l'ordre d'index combiné, n'ajouter pas d'index dans des champs sélectifs faibles et éviter les index redondants. 2. Optimiser les requêtes SQL: évitez de sélectionner *, n'utilisez pas de fonctions dans l'endroit, réduisez la nidification des sous-requêtes et optimisez les méthodes de requête de pagination. 3. Conception et partitionnement de la structure du tableau: sélectionnez le paradigme ou l'anti-paradigme en fonction des scénarios de lecture et d'écriture, sélectionnez les types de champ appropriés, nettoyez régulièrement les données et considérons les tables horizontales pour diviser les tableaux ou partitionner par le temps. 4. Utiliser le cache et la surveillance: utilisez le cache Redis pour réduire la pression de la base de données et activer la requête lente

Pour concevoir une solution de sauvegarde MySQL fiable, 1. Premièrement, clarifiez les indicateurs RTO et RPO, et déterminez la fréquence et la méthode de sauvegarde en fonction de la plage de temps d'arrêt et de perte de données acceptable de l'entreprise; 2. Adoptez une stratégie de sauvegarde hybride, combinant une sauvegarde logique (comme MySQLDump), une sauvegarde physique (telle que Perconaxtrabackup) et un journal binaire (binlog), pour obtenir une récupération rapide et une perte de données minimale; 3. Testez régulièrement le processus de récupération pour assurer l'efficacité de la sauvegarde et familiariser avec les opérations de récupération; 4. Faites attention à la sécurité du stockage, y compris le stockage hors site, la protection du chiffrement, la politique de rétention de version et la surveillance des taches de sauvegarde.

TooptimezecomplexjoinoperationsInmysql, suivifourkeysteps: 1) assurez-vous de l'assurance-ne-nezon de la manière
