99无码熟妇丰满人妻啪啪,jizz成熟丰满韩国女人,99久久精品免费看国产一区二区三区

Maison

développement back-end

Tutoriel Python

Apprenez à diviser les données de formation et de test d'un ensemble de données à l'aide de Python

DDD

Oct 30, 2024 am 10:57 AM

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Résumé

Cet article vous apprend à diviser un ensemble de données en données de formation et de test et à enregistrer cette division dans un fichier .pkl, essentiel pour former et évaluer les modèles de Machine Learning de manière organisée. Le processus utilise les bibliothèques sklearn et pickle, vous permettant de réutiliser les données traitées dans de futurs projets. Cet article est la prochaine étape d'une série de tutoriels sur le prétraitement des données.

Principaux sujets abordés?:

Préparation du notebook sur Google Colab
Division de l'ensemble de données en données de formation et de test
Explication détaillée du code Python pour la division
Enregistrement du fractionnement dans un fichier .pkl à l'aide de pickle
Avantages de la sauvegarde des données traitées pour une utilisation future

Important?: Pour suivre cet article, lisez d'abord les articles ci-dessous dans l'ordre suggéré. Chaque article fournit les bases dont vous avez besoin pour comprendre le suivant, vous assurant ainsi de comprendre l'ensemble du flux de travail jusqu'à présent.

Article 1?: Appliquer l'apprentissage automatique?: un guide pour démarrer en tant que modèles en classification

Article 2?:Explorer la classification dans l'apprentissage automatique?: types de variables

Article 3?:Explorer Google Colab?: votre allié pour coder des modèles de machine learning

Article 4?:Explorer les données avec Python sur Google Colab?: un guide pratique utilisant l'ensemble de données adult.csv

Article 5?: Démystifier le prédicteur, la division de classe et la gestion des attributs catégoriels avec LabelEncoder et OneHotEncoder

Article 6?: Mise à l'échelle des données?: les bases de modèles efficaces

Introduction

Dans cet article, vous apprendrez à diviser un ensemble de données en formation et tests, ainsi qu'à enregistrer cette division dans un fichier .pkl. Ce processus est essentiel pour assurer une séparation nette entre les données qui seront utilisées pour entra?ner le modèle et celles qui seront utilisées pour évaluer ses performances.

Démarrage du processus dans Google Colab

Tout d'abord, accédez à ce lien de bloc-notes et sélectionnez Fichier > Enregistrez une copie dans Drive. N'oubliez pas que l'ensemble de données (adult.csv) doit être chargé à nouveau à chaque nouvelle publication (plus d'informations dans l'article 4 ci-dessus), car chaque tutoriel crée un nouveau notebook, en ajoutant uniquement le code nécessaire présenté dans cet article, mais le notebook est avec tout le code généré jusqu'à présent. Une copie du bloc-notes sera enregistrée sur Google Drive, dans le dossier Colab Notebooks, gardant le processus organisé et continu.

Pourquoi diviser l'ensemble de données en formation et tests??

La division de l'ensemble de données est une étape fondamentale dans tout projet de Machine Learning, car elle permet au modèle "d'apprendre" à partir d'une partie des données (entra?nement) puis d'être évalué sur de nouvelles données, jamais vues auparavant (tests). Cette pratique est essentielle pour mesurer la généralisation du modèle. Pour faciliter le suivi, nous utiliserons les variables suivantes?:

X_adult_treinamento?: variables prédictives d'entra?nement
X_adult_teste?: tester les variables prédictives
y_adult_treinamento?: variable cible d'entra?nement
y_adult_teste?: tester la variable cible

Code Python pour diviser l'ensemble de données

Vous trouverez ci-dessous le code Python pour effectuer la répartition entre les données d'entra?nement et de test?:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

La figure ci-dessous montre le code précédent avec ses sorties après exécution.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Explication du Code?:

train_test_split?: Fonction de la bibliothèque sklearn qui divise l'ensemble de données.
test_size=0.2?: Indique que 20?% des données seront réservées aux tests, et les 80?% restants à l'entra?nement.
random_state=0?: Garantit que la division est toujours la même, générant des résultats cohérents pour chaque exécution.
forme?: Vérifie la forme des données après le fractionnement pour confirmer que le fractionnement s'est produit correctement.

Enregistrer le fractionnement dans un fichier .pkl

Pour faciliter le travail et assurer la cohérence entre les différentes exécutions, nous enregistrerons les variables d'entra?nement et de test dans un fichier .pkl. Cela permet de réutiliser les données chaque fois que nécessaire, sans avoir à refaire la division.

Code pour enregistrer les variables à l'aide de pickle?:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Pour afficher le fichier adult.pkl sur le cahier, cliquez simplement sur l'ic?ne du dossier sur le c?té gauche, comme indiqué dans la figure ci-dessous.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Explication du Code?:

pickle : Bibliothèque Python utilisée pour sérialiser des objets, permettant d'enregistrer des variables complexes dans des fichiers.
dump?: Enregistre les variables dans un fichier appelé adult.pkl. Ce fichier sera lu à l'avenir pour charger l'ensemble de données divisé en formation et tests, optimisant ainsi le flux de travail.

Conclusion

Dans cet article, vous avez appris à diviser un ensemble de données en données d'entra?nement et de test et à l'enregistrer dans un fichier .pkl. Ce processus est fondamental dans les projets de Machine Learning, garantissant une structure organisée et efficace. Dans le prochain article, nous aborderons la création de modèles, en commen?ant par l'algorithme Naive Bayes, en utilisant le fichier adult.pkl pour poursuivre le développement.

Livres que je recommande

1. Statistiques pratiques pour les data scientists
2. Introduction à l'informatique avec Python
3. 2041?:?Comment l'intelligence artificielle changera votre vie au cours des prochaines décennies
4. Cours Python intensif
5. Comprendre les algorithmes. Un guide illustré pour les programmeurs et autres curieux
6. Intelligence artificielle - Kai-Fu Lee
7. Introduction à l'intelligence artificielle - Une approche non technique - Tom Taulli

Nouveaux Kindle

J'ai fait une analyse détaillée des nouveaux Kindle lancés cette année, mettant en évidence leurs principales innovations et avantages pour les lecteurs numériques. Consultez le texte intégral sur le lien suivant?: Le monde fascinant de la lecture numérique?: les avantages d'avoir un Kindle.

Amazon Prime

Rejoindre Amazon Prime offre une série d'avantages, notamment un accès illimité à des milliers de films, séries et musiques, ainsi que la livraison gratuite sur des millions de produits avec livraison rapide. Les membres bénéficient également d'offres exclusives, d'un accès anticipé aux promotions et d'avantages sur des services tels que Prime Video, Prime Music et Prime Reading, rendant l'expérience de shopping et de divertissement beaucoup plus pratique et riche.

Si vous êtes intéressé, utilisez le lien suivant : AMAZON PRIME, qui m'aide à continuer à promouvoir l'intelligence artificielle et la programmation informatique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Afficher plus

Article chaud

Guide de construction de Grass Wonder | Uma musume joli derby

1 Il y a quelques mois By Jack chen

<??>: 99 nuits dans la forêt - tous les badges et comment les déverrouiller

4 Il y a quelques semaines By DDD

Uma Musume Pretty Derby Banner Schedule (juillet 2025)

1 Il y a quelques mois By Jack chen

Guide de température de Rimworld Odyssey pour les navires et Gravtech

3 Il y a quelques semaines By Jack chen

Windows Security est vide ou ne montre pas les options

1 Il y a quelques mois By 下次還敢

Afficher plus

Outils chauds

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Laravel

1600

Tutoriel PHP

1502

276

Afficher plus

Related knowledge

Comment gérer l'authentification de l'API dans Python Jul 13, 2025 am 02:22 AM

La clé pour gérer l'authentification de l'API est de comprendre et d'utiliser correctement la méthode d'authentification. 1. Apikey est la méthode d'authentification la plus simple, généralement placée dans l'en-tête de demande ou les paramètres d'URL; 2. BasicAuth utilise le nom d'utilisateur et le mot de passe pour la transmission de codage Base64, qui convient aux systèmes internes; 3. OAuth2 doit d'abord obtenir le jeton via client_id et client_secret, puis apporter le Bearertoken dans l'en-tête de demande; 4. Afin de gérer l'expiration des jetons, la classe de gestion des jetons peut être encapsulée et rafra?chie automatiquement le jeton; En bref, la sélection de la méthode appropriée en fonction du document et le stockage en toute sécurité des informations clés sont la clé.

Expliquez les assertions Python. Jul 07, 2025 am 12:14 AM

Assert est un outil d'affirmation utilisé dans Python pour le débogage et lance une affirmation d'établissement lorsque la condition n'est pas remplie. Sa syntaxe est affirmer la condition plus les informations d'erreur facultatives, qui conviennent à la vérification de la logique interne telle que la vérification des paramètres, la confirmation d'état, etc., mais ne peuvent pas être utilisées pour la sécurité ou la vérification des entrées des utilisateurs, et doit être utilisée en conjonction avec des informations d'invite claires. Il n'est disponible que pour le débogage auxiliaire au stade de développement plut?t que pour remplacer la manipulation des exceptions.

Que sont les indices de type Python? Jul 07, 2025 am 02:55 AM

TypeHintsInpythonsolvetheproblebandofambigu?té et opposant à un montant de type de type parallèlement au développement de l'aménagement en fonction des types de type.

Comment itérer sur deux listes à la fois Python Jul 09, 2025 am 01:13 AM

Une méthode courante pour parcourir deux listes simultanément dans Python consiste à utiliser la fonction zip (), qui appariera plusieurs listes dans l'ordre et sera la plus courte; Si la longueur de liste est incohérente, vous pouvez utiliser itertools.zip_langest () pour être le plus long et remplir les valeurs manquantes; Combiné avec enumerate (), vous pouvez obtenir l'index en même temps. 1.zip () est concis et pratique, adapté à l'itération des données appariées; 2.zip_langest () peut remplir la valeur par défaut lorsqu'il s'agit de longueurs incohérentes; 3. L'énumération (zip ()) peut obtenir des indices pendant la traversée, en répondant aux besoins d'une variété de scénarios complexes.

Que sont les itérateurs Python? Jul 08, 2025 am 02:56 AM

Inpython, itérateurslawjectsThatallowloopingthroughCollectionsbyImpleting __iter __ () et__Next __ (). 1) iteratorsworkVeatheitorat

Tutoriel Python Fastapi Jul 12, 2025 am 02:42 AM

Pour créer des API modernes et efficaces à l'aide de Python, FastAPI est recommandé; Il est basé sur des invites de type Python standard et peut générer automatiquement des documents, avec d'excellentes performances. Après avoir installé FastAPI et ASGI Server Uvicorn, vous pouvez écrire du code d'interface. En définissant les itinéraires, en écrivant des fonctions de traitement et en renvoyant des données, les API peuvent être rapidement construites. Fastapi prend en charge une variété de méthodes HTTP et fournit des systèmes de documentation SwaggerUI et Redoc générés automatiquement. Les paramètres d'URL peuvent être capturés via la définition du chemin, tandis que les paramètres de requête peuvent être implémentés en définissant des valeurs par défaut pour les paramètres de fonction. L'utilisation rationnelle des modèles pydantiques peut aider à améliorer l'efficacité du développement et la précision.

Comment tester une API avec Python Jul 12, 2025 am 02:47 AM

Pour tester l'API, vous devez utiliser la bibliothèque des demandes de Python. Les étapes consistent à installer la bibliothèque, à envoyer des demandes, à vérifier les réponses, à définir des délais d'attente et à réessayer. Tout d'abord, installez la bibliothèque via PiPinstallRequests; Utilisez ensuite les demandes.get () ou les demandes.Post () et d'autres méthodes pour envoyer des demandes GET ou POST; Vérifiez ensuite la réponse.status_code et la réponse.json () pour vous assurer que le résultat de retour est en conformité avec les attentes; Enfin, ajoutez des paramètres de délai d'expiration pour définir l'heure du délai d'expiration et combinez la bibliothèque de réessayer pour obtenir une nouvelle tentative automatique pour améliorer la stabilité.

Portée variable python dans les fonctions Jul 12, 2025 am 02:49 AM

Dans Python, les variables définies à l'intérieur d'une fonction sont des variables locales et ne sont valides que dans la fonction; Les variables globales sont définies à l'extérieur qui peuvent être lues n'importe où. 1. Les variables locales sont détruites lors de l'exécution de la fonction; 2. La fonction peut accéder aux variables globales mais ne peut pas être modifiée directement, donc le mot-clé global est requis; 3. Si vous souhaitez modifier les variables de fonction externes dans les fonctions imbriquées, vous devez utiliser le mot-clé non local; 4. Les variables avec le même nom ne se affectent pas dans différentes lunettes; 5. Global doit être déclaré lors de la modification des variables globales, sinon une erreur non liée à la dorsale sera augmentée. Comprendre ces règles permet d'éviter les bogues et d'écrire des fonctions plus fiables.

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Apprenez à diviser les données de formation et de test d'un ensemble de données à l'aide de Python

Résumé

Principaux sujets abordés?:

Introduction

Démarrage du processus dans Google Colab

Pourquoi diviser l'ensemble de données en formation et tests??

Code Python pour diviser l'ensemble de données

Explication du Code?:

Enregistrer le fractionnement dans un fichier .pkl

Explication du Code?:

Conclusion

Livres que je recommande

Nouveaux Kindle

Amazon Prime

Outils d'IA chauds

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds