Logo de AiToolGo

Amazon SageMaker Data Wrangler : Simplifiez la préparation des données pour le Machine Learning

Discussion approfondie
Technique, facile à comprendre
 0
 0
 1
Cet article fournit un guide complet sur la manière d'accéder et d'utiliser Amazon SageMaker Data Wrangler, couvrant les prérequis, la préparation des données et l'entraînement des modèles à l'aide du jeu de données Titanic. Il comprend des instructions étape par étape pour importer des données, appliquer des transformations et exporter des flux de données.
  • points principaux
  • perspectives uniques
  • applications pratiques
  • sujets clés
  • idées clés
  • résultats d'apprentissage
  • points principaux

    • 1
      Instructions détaillées étape par étape pour l'utilisation de Data Wrangler
    • 2
      Exemples pratiques utilisant le jeu de données Titanic
    • 3
      Couverture complète de la préparation des données et de l'entraînement des modèles
  • perspectives uniques

    • 1
      Intégration de Data Wrangler avec Amazon S3 pour l'importation de données
    • 2
      Utilisation de transformations intégrées et de code Python personnalisé pour le nettoyage des données
  • applications pratiques

    • L'article fournit des conseils pratiques aux utilisateurs pour préparer efficacement les données pour le Machine Learning, ce qui le rend précieux pour les débutants comme pour les utilisateurs expérimentés.
  • sujets clés

    • 1
      Préparation des données avec Data Wrangler
    • 2
      Entraînement de modèles avec XGBoost
    • 3
      Intégration avec Amazon S3
  • idées clés

    • 1
      Tutoriel pratique avec un jeu de données réel
    • 2
      Instructions claires pour les utilisateurs novices et avancés
    • 3
      Accent sur les applications pratiques des outils de préparation des données
  • résultats d'apprentissage

    • 1
      Compréhension de la manière d'accéder et d'utiliser Amazon SageMaker Data Wrangler
    • 2
      Capacité à préparer des données pour les modèles de Machine Learning
    • 3
      Connaissance de l'intégration de Data Wrangler avec les services AWS
exemples
tutoriels
exemples de code
visuels
fondamentaux
contenu avancé
conseils pratiques
meilleures pratiques

Introduction à Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler est un outil puissant au sein d'Amazon SageMaker Studio Classic, conçu pour rationaliser et simplifier le processus de préparation des données pour les projets de Machine Learning (ML). Il offre une interface visuelle conviviale qui permet aux data scientists et aux ingénieurs ML d'importer, d'analyser, de transformer et d'exporter efficacement les données. En utilisant Data Wrangler, les utilisateurs peuvent réduire considérablement le temps et les efforts requis pour préparer les données, leur permettant ainsi de se concentrer davantage sur le développement et le déploiement de modèles. Ce guide complet vous accompagnera à travers les aspects essentiels de Data Wrangler, de sa configuration à l'exploitation de ses fonctionnalités avancées pour la manipulation des données et l'entraînement des modèles.

Prérequis pour l'utilisation de Data Wrangler

Avant de pouvoir commencer à utiliser Amazon SageMaker Data Wrangler, vous devez vous assurer que vous avez rempli les prérequis nécessaires. Ceux-ci incluent l'accès à une instance Amazon EC2, la configuration de la sécurité et des autorisations requises, et la possession d'une instance Studio Classic active. 1. **Instance Amazon EC2** : Vous avez besoin d'accéder à une instance Amazon Elastic Compute Cloud (Amazon EC2). Référez-vous à la documentation AWS pour plus d'informations sur les types d'instances disponibles et comment demander une augmentation des quotas si nécessaire. 2. **Sécurité et Autorisations** : Configurez les autorisations nécessaires comme décrit dans la documentation sur la sécurité et les autorisations. Cela garantit que vous disposez des droits d'accès appropriés pour utiliser Data Wrangler et les services AWS associés. 3. **Accès au Pare-feu** : Si votre organisation utilise un pare-feu qui bloque le trafic Internet, assurez-vous d'avoir accès aux URL suivantes : * `https://ui.prod-1.data-wrangler.sagemaker.aws/` * `https://ui.prod-2.data-wrangler.sagemaker.aws/` * `https://ui.prod-3.data-wrangler.sagemaker.aws/` * `https://ui.prod-4.data-wrangler.sagemaker.aws/` 4. **Instance Studio Classic Active** : Vous avez besoin d'une instance Studio Classic active. Suivez les instructions de la vue d'ensemble du domaine AI Amazon SageMaker pour lancer une nouvelle instance si vous n'en avez pas déjà une. Assurez-vous que l'application KernelGateway est dans un état 'Prêt' avant de continuer.

Accès à Data Wrangler dans SageMaker Studio Classic

Une fois les prérequis remplis, vous pouvez accéder à Data Wrangler dans SageMaker Studio Classic en suivant ces étapes : 1. **Connexion à Studio Classic** : Utilisez vos identifiants pour vous connecter à SageMaker Studio Classic. Référez-vous à la vue d'ensemble du domaine AI Amazon SageMaker pour plus d'informations. 2. **Sélectionner Studio** : Naviguez vers l'interface Studio. 3. **Lancer l'Application** : Choisissez 'Studio' dans la liste déroulante des applications. 4. **Aller à l'Accueil** : Sélectionnez l'icône d'accueil pour accéder au tableau de bord principal. 5. **Choisir Données** : Cliquez sur l'option 'Données'. 6. **Sélectionner Data Wrangler** : Choisissez 'Data Wrangler' pour lancer l'application. Alternativement, vous pouvez créer un nouveau flux Data Wrangler en : 1. **Sélectionnant Fichier** : Dans la barre de navigation supérieure, choisissez 'Fichier'. 2. **Choisissant Nouveau** : Sélectionnez 'Nouveau'. 3. **Sélectionnant Flux Data Wrangler** : Choisissez 'Flux Data Wrangler'. Vous pouvez également renommer le nouveau répertoire et le fichier `.flow` selon vos besoins. Notez que le chargement initial de Data Wrangler peut prendre quelques minutes, et un carrousel peut apparaître jusqu'à ce que l'application KernelGateway soit prête.

Exploration des Fonctionnalités de Data Wrangler : Une Démonstration avec le Jeu de Données Titanic

Pour vous aider à comprendre comment utiliser Data Wrangler, cette section propose une démonstration utilisant le jeu de données Titanic. Ce jeu de données contient des informations sur les passagers du Titanic, y compris leur statut de survie, leur âge, leur sexe et leur classe. En suivant cette démonstration, vous apprendrez à importer, analyser, transformer et exporter des données à l'aide de Data Wrangler. **Étapes de la Démonstration :** 1. **Ouvrir un Flux Data Wrangler** : Ouvrez un nouveau flux Data Wrangler et choisissez d'utiliser un jeu de données d'exemple, ou téléchargez le jeu de données Titanic sur Amazon S3 et importez-le dans Data Wrangler. 2. **Analyser le Jeu de Données** : Utilisez les outils d'analyse de Data Wrangler pour explorer le jeu de données et obtenir des informations. 3. **Définir le Flux de Données** : Utilisez les fonctionnalités de transformation de données de Data Wrangler pour définir un flux de données. 4. **Exporter le Flux** : Exportez votre flux vers un notebook Jupyter pour créer un job Data Wrangler. 5. **Traiter les Données** : Traitez vos données et lancez un job d'entraînement SageMaker pour entraîner un classifieur binaire XGBoost.

Importation et Préparation des Données avec Data Wrangler

Vous pouvez importer le jeu de données Titanic dans Data Wrangler en utilisant l'une des méthodes suivantes : 1. **Importer Directement depuis un Flux Data Wrangler** : Ouvrez le flux et sélectionnez 'Utiliser un jeu de données d'exemple'. 2. **Télécharger sur Amazon S3** : Téléchargez le jeu de données sur un bucket Amazon S3, puis importez-le dans Data Wrangler. Pour télécharger le jeu de données sur Amazon S3 : 1. **Télécharger le Jeu de Données Titanic** : Téléchargez le jeu de données Titanic. 2. **Télécharger sur S3** : Téléchargez le jeu de données sur un bucket Amazon S3 dans la région AWS que vous avez l'intention d'utiliser pour cette démonstration. Vous pouvez utiliser la console Amazon S3 pour glisser-déposer le fichier. Une fois le jeu de données téléchargé avec succès sur Amazon S3, vous pouvez l'importer dans Data Wrangler : 1. **Sélectionner Importer des Données** : Dans l'onglet du flux de données, sélectionnez le bouton 'Importer des Données' ou l'onglet 'Importer'. 2. **Choisir Amazon S3** : Sélectionnez 'Amazon S3'. 3. **Localiser le Jeu de Données** : Utilisez le tableau d'importation de jeu de données pour trouver le bucket où vous avez ajouté le jeu de données Titanic. Sélectionnez le fichier CSV pour ouvrir le panneau de détails. 4. **Configurer les Détails** : Assurez-vous que le type de fichier est CSV et cochez la case indiquant que la première ligne est l'en-tête. Vous pouvez également donner un nom convivial au jeu de données, tel que 'Titanic-train'. 5. **Importer** : Sélectionnez le bouton 'Importer'. Après avoir importé le jeu de données, il apparaîtra dans l'onglet du flux de données. Double-cliquez sur le nœud pour entrer dans la vue des détails du nœud, où vous pouvez ajouter des transformations ou des analyses.

Analyse et Visualisation des Données

Data Wrangler fournit des capacités de transformation et de visualisation intégrées pour analyser, nettoyer et transformer vos données. Le panneau de droite dans la vue des détails du nœud liste toutes les transformations intégrées et une section pour ajouter des transformations personnalisées. **Création d'un Rapport de Qualité et d'Informations sur les Données** Pour obtenir des informations sur vos données, créez un rapport de qualité et d'informations sur les données. Ce rapport vous aide à identifier des problèmes tels que les valeurs manquantes et les valeurs aberrantes. Il vous alerte également sur des problèmes potentiels tels que la fuite de cible ou le déséquilibre. **Création d'un Résumé de Tableau** 1. **Ajouter une Analyse** : Sélectionnez le '+' à côté de l'étape du type de données dans le flux de données et choisissez 'Ajouter une Analyse'. 2. **Sélectionner Résumé de Tableau** : Dans la zone d'analyse, choisissez 'Résumé de Tableau' dans la liste déroulante. 3. **Nommer le Résumé** : Donnez un nom au résumé de tableau. 4. **Aperçu** : Sélectionnez 'Aperçu' pour voir un aperçu du tableau. 5. **Enregistrer** : Sélectionnez 'Enregistrer' pour l'ajouter à votre flux de données. Les données seront affichées sous 'Toutes les Analyses'. À partir des statistiques fournies, vous pouvez faire des observations telles que le tarif moyen et la présence de valeurs manquantes dans des colonnes comme 'cabin', 'embarked' et 'age'.

Transformation des Données avec Data Wrangler

Après avoir analysé vos données, vous pouvez les nettoyer et les préparer pour l'entraînement en ajoutant des transformations au flux de données. Voici quelques transformations courantes que vous pouvez effectuer : **Suppression des Colonnes Inutilisées** 1. **Ajouter une Transformation** : Sélectionnez le '+' à côté de l'étape du type de données dans le flux de données et choisissez 'Ajouter une Transformation'. 2. **Sélectionner Gérer les Colonnes** : Dans la colonne 'Toutes les Étapes', choisissez 'Ajouter une Étape', puis sélectionnez 'Gérer les Colonnes' dans la liste des transformations standard. Assurez-vous que 'Supprimer la colonne' est sélectionné. 3. **Choisir les Colonnes à Supprimer** : Sélectionnez les colonnes que vous ne souhaitez pas utiliser pour l'entraînement, telles que 'cabin', 'ticket', 'name', 'sibsp', 'parch', 'home.dest', 'boat' et 'body'. 4. **Aperçu et Ajout** : Sélectionnez 'Aperçu' pour vérifier que les colonnes sont supprimées, puis sélectionnez 'Ajouter'. **Nettoyage des Valeurs Manquantes** 1. **Sélectionner Gérer les Valeurs Manquantes** : Choisissez 'Gérer les valeurs manquantes'. 2. **Choisir Supprimer les Valeurs Manquantes** : Sélectionnez 'Supprimer les valeurs manquantes' pour le transformateur. 3. **Sélectionner la Colonne d'Entrée** : Choisissez la colonne avec des valeurs manquantes, telle que 'age'. 4. **Aperçu et Ajout** : Sélectionnez 'Aperçu' pour voir le nouveau data frame, puis sélectionnez 'Ajouter' pour ajouter la transformation à votre flux. **Transformations Personnalisées avec Pandas** Vous pouvez également utiliser des transformations personnalisées avec Pandas pour effectuer des manipulations de données plus complexes. Par exemple, vous pouvez utiliser l'encodage one-hot pour les données catégorielles : ```python import pandas as pd dummies = [] cols = ['pclass','sex','embarked'] for col in cols: dummies.append(pd.get_dummies(df[col])) encoded = pd.concat(dummies, axis=1) df = pd.concat((df, encoded),axis=1) ``` **Transformations Personnalisées avec SQL** Vous pouvez utiliser SQL pour sélectionner des colonnes spécifiques pour une analyse plus approfondie : ```sql SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df; ```

Exportation des Flux de Données et Intégration avec SageMaker

Une fois votre flux de données créé, vous pouvez l'exporter pour une utilisation ultérieure. Une option courante est de l'exporter vers un notebook de job Data Wrangler. Ce processus crée automatiquement un notebook Jupyter configuré pour exécuter un job de traitement SageMaker afin d'exécuter votre flux de données Data Wrangler. **Exportation vers un Notebook de Job Data Wrangler** 1. **Enregistrer le Flux de Données** : Sélectionnez 'Fichier', puis 'Enregistrer le Flux Data Wrangler'. 2. **Retourner à l'Onglet Flux de Données** : Revenez à l'onglet du flux de données et sélectionnez la dernière étape de votre flux de données. 3. **Sélectionner Exporter** : Choisissez 'Exporter', puis 'Amazon S3 (via Jupyter Notebook)'. Cela ouvrira un notebook Jupyter. 4. **Sélectionner le Noyau** : Choisissez n'importe quel noyau Python 3 (Data Science). 5. **Exécuter le Notebook** : Exécutez les cellules du notebook jusqu'à atteindre la section 'Lancer le Job d'Entraînement SageMaker (facultatif)'. Vous pouvez surveiller l'état de votre job Data Wrangler dans l'onglet 'Traitement' de la console AI SageMaker. Vous pouvez également utiliser Amazon CloudWatch pour surveiller votre job Data Wrangler.

Entraînement d'un Classifieur XGBoost avec des Données Préparées

Après avoir préparé vos données avec Data Wrangler, vous pouvez entraîner un classifieur binaire XGBoost en utilisant soit un notebook Jupyter, soit Amazon Autopilot. Autopilot peut entraîner et optimiser automatiquement des modèles basés sur les données transformées directement à partir de votre flux Data Wrangler. **Entraînement avec un Notebook Jupyter** Dans le même notebook où vous avez lancé le job Data Wrangler, vous pouvez extraire les données préparées et entraîner un classifieur binaire XGBoost avec une préparation de données supplémentaire minimale. 1. **Mettre à Jour les Modules Nécessaires** : Utilisez pip pour mettre à jour les modules nécessaires et supprimer le fichier `_SUCCESS` : ```bash ! pip install --upgrade awscli awswrangler boto sklearn ! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*" ``` 2. **Lire les Données depuis Amazon S3** : Utilisez awswrangler pour lire récursivement tous les fichiers CSV du préfixe S3. Ensuite, divisez les données en caractéristiques et étiquettes. ```python import awswrangler as wr df = wr.s3.read_csv(path=output_path, dataset=True) X, y = df.iloc[:,:-1],df.iloc[:,-1] ``` 3. **Créer des DMatrices et Effectuer une Validation Croisée** : Créez des DMatrices (la structure de données native pour XGBoost) et utilisez la classification binaire XGBoost pour la validation croisée. ```python import xgboost as xgb dmatrix = xgb.DMatrix(data=X, label=y) params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10} xgb.cv( dtrain=dmatrix, params=params, nfold=3, num_boost_round=50, early_stopping_rounds=10, metrics="rmse", as_pandas=True, seed=123) ```

Mise à Jour et Fermeture de Data Wrangler

Pour vous assurer de disposer des dernières fonctionnalités et mises à jour, il est recommandé de mettre à jour régulièrement l'application Data Wrangler Studio Classic. Pour mettre à jour, référez-vous à la documentation sur la fermeture et la mise à jour des applications Studio Classic. Une fois que vous avez terminé d'utiliser Data Wrangler, il est conseillé de fermer les instances en cours d'exécution pour éviter des coûts supplémentaires. Référez-vous à la documentation sur la fermeture de Data Wrangler pour les instructions sur la façon d'arrêter l'application et les instances associées.

 Lien original : https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-wrangler-getting-started.html

Commentaire(0)

user's avatar

      Outils connexes