Amazon SageMaker Data Wrangler: Simplifica la Preparación de Datos para el Aprendizaje Automático

Discusión en profundidad

Técnico, fácil de entender

Este artículo proporciona una guía completa sobre cómo acceder y utilizar Amazon SageMaker Data Wrangler, cubriendo los requisitos previos, la preparación de datos y el entrenamiento de modelos utilizando el conjunto de datos del Titanic. Incluye instrucciones paso a paso para importar datos, aplicar transformaciones y exportar flujos de datos.

puntos principales
ideas únicas
aplicaciones prácticas
temas clave
ideas clave
resultados de aprendizaje

• puntos principales
- 1
  Instrucciones detalladas paso a paso para usar Data Wrangler
- 2
  Ejemplos prácticos utilizando el conjunto de datos del Titanic
- 3
  Cobertura completa de la preparación de datos y el entrenamiento de modelos
• ideas únicas
- 1
  Integración de Data Wrangler con Amazon S3 para la importación de datos
- 2
  Uso de transformaciones integradas y código Python personalizado para la limpieza de datos
• aplicaciones prácticas
- El artículo proporciona orientación práctica para que los usuarios preparen datos de manera efectiva para el aprendizaje automático, lo que lo hace valioso tanto para principiantes como para usuarios experimentados.
• temas clave
- 1
  Preparación de datos usando Data Wrangler
- 2
  Entrenamiento de modelos con XGBoost
- 3
  Integración con Amazon S3
• ideas clave
- 1
  Tutorial práctico con un conjunto de datos real
- 2
  Instrucciones claras tanto para usuarios novatos como avanzados
- 3
  Enfoque en aplicaciones prácticas de herramientas de preparación de datos
• resultados de aprendizaje
- 1
  Comprensión de cómo acceder y utilizar Amazon SageMaker Data Wrangler
- 2
  Capacidad para preparar datos para modelos de aprendizaje automático
- 3
  Conocimiento de la integración de Data Wrangler con servicios de AWS

ejemplos	tutoriales	ejemplos de código	visuales
fundamentos	contenido avanzado	consejos prácticos	mejores prácticas

Tabla de contenidos

• Introducción a Amazon SageMaker Data Wrangler
• Requisitos Previos para Usar Data Wrangler
• Acceso a Data Wrangler en SageMaker Studio Classic
• Exploración de las Funciones de Data Wrangler: Un Recorrido con el Conjunto de Datos del Titanic
• Importación y Preparación de Datos con Data Wrangler
• Análisis y Visualización de Datos
• Transformación de Datos con Data Wrangler
• Exportación de Flujos de Datos e Integración con SageMaker
• Entrenamiento de un Clasificador XGBoost con Datos Preparados
• Actualización y Cierre de Data Wrangler

“ Introducción a Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler es una herramienta potente dentro de Amazon SageMaker Studio Classic diseñada para agilizar y simplificar el proceso de preparación de datos para proyectos de aprendizaje automático (ML). Proporciona una interfaz visual y fácil de usar que permite a los científicos de datos e ingenieros de ML importar, analizar, transformar y exportar datos de manera eficiente. Al utilizar Data Wrangler, los usuarios pueden reducir significativamente el tiempo y el esfuerzo requeridos para preparar datos, permitiéndoles centrarse más en el desarrollo y la implementación de modelos. Esta guía completa lo llevará a través de los aspectos esenciales de Data Wrangler, desde su configuración hasta el aprovechamiento de sus funciones avanzadas para la manipulación de datos y el entrenamiento de modelos.

“ Requisitos Previos para Usar Data Wrangler

Antes de poder empezar a usar Amazon SageMaker Data Wrangler, debe asegurarse de haber cumplido los requisitos previos necesarios. Estos incluyen tener acceso a una instancia de Amazon EC2, configurar la seguridad y los permisos requeridos, y tener una instancia activa de Studio Classic. 1. **Instancia de Amazon EC2**: Necesita acceso a una instancia de Amazon Elastic Compute Cloud (Amazon EC2). Consulte la documentación de AWS para obtener más información sobre los tipos de instancias disponibles y cómo solicitar un aumento de cuotas si es necesario. 2. **Seguridad y Permisos**: Configure los permisos necesarios según lo descrito en la documentación de seguridad y permisos. Esto garantiza que tenga los derechos de acceso adecuados para utilizar Data Wrangler y los servicios relacionados de AWS. 3. **Acceso al Firewall**: Si su organización utiliza un firewall que bloquea el tráfico de Internet, asegúrese de tener acceso a las siguientes URL: * `https://ui.prod-1.data-wrangler.sagemaker.aws/` * `https://ui.prod-2.data-wrangler.sagemaker.aws/` * `https://ui.prod-3.data-wrangler.sagemaker.aws/` * `https://ui.prod-4.data-wrangler.sagemaker.aws/` 4. **Instancia Activa de Studio Classic**: Necesita una instancia activa de Studio Classic. Siga las instrucciones de la Descripción general del dominio de IA de Amazon SageMaker para lanzar una nueva instancia si aún no tiene una. Asegúrese de que la aplicación KernelGateway esté en estado 'Listo' antes de continuar.

“ Acceso a Data Wrangler en SageMaker Studio Classic

Una vez que haya completado los requisitos previos, puede acceder a Data Wrangler dentro de SageMaker Studio Classic siguiendo estos pasos: 1. **Iniciar sesión en Studio Classic**: Utilice sus credenciales para iniciar sesión en SageMaker Studio Classic. Consulte la Descripción general del dominio de IA de Amazon SageMaker para obtener más información. 2. **Seleccionar Studio**: Navegue a la interfaz de Studio. 3. **Lanzar Aplicación**: Elija 'Studio' en la lista desplegable de aplicaciones. 4. **Ir a Inicio**: Seleccione el icono de inicio para acceder al panel principal. 5. **Elegir Datos**: Haga clic en la opción 'Datos'. 6. **Seleccionar Data Wrangler**: Elija 'Data Wrangler' para iniciar la aplicación. Alternativamente, puede crear un nuevo flujo de Data Wrangler de la siguiente manera: 1. **Seleccionar Archivo**: En la barra de navegación superior, elija 'Archivo'. 2. **Elegir Nuevo**: Seleccione 'Nuevo'. 3. **Seleccionar Flujo de Data Wrangler**: Elija 'Flujo de Data Wrangler'. También puede renombrar el nuevo directorio y el archivo `.flow` según sea necesario. Tenga en cuenta que la carga inicial de Data Wrangler puede tardar unos minutos, y puede aparecer un carrusel hasta que la aplicación KernelGateway esté lista.

“ Exploración de las Funciones de Data Wrangler: Un Recorrido con el Conjunto de Datos del Titanic

Para ayudarlo a comprender cómo usar Data Wrangler, esta sección proporciona un recorrido utilizando el conjunto de datos del Titanic. Este conjunto de datos contiene información sobre los pasajeros del Titanic, incluido su estado de supervivencia, edad, género y clase. Al seguir este recorrido, aprenderá a importar, analizar, transformar y exportar datos utilizando Data Wrangler. **Pasos del Recorrido:** 1. **Abrir Flujo de Data Wrangler**: Abra un nuevo flujo de Data Wrangler y elija usar un conjunto de datos de ejemplo, o cargue el conjunto de datos del Titanic en Amazon S3 e impórtelo en Data Wrangler. 2. **Analizar el Conjunto de Datos**: Utilice las herramientas de análisis de Data Wrangler para explorar el conjunto de datos y obtener información. 3. **Definir Flujo de Datos**: Utilice las funciones de transformación de datos de Data Wrangler para definir un flujo de datos. 4. **Exportar el Flujo**: Exporte su flujo a un cuaderno de Jupyter para crear un trabajo de Data Wrangler. 5. **Procesar Datos**: Procese sus datos e inicie un trabajo de entrenamiento de SageMaker para entrenar un clasificador binario XGBoost.

“ Importación y Preparación de Datos con Data Wrangler

Puede importar el conjunto de datos del Titanic a Data Wrangler utilizando uno de los siguientes métodos: 1. **Importar Directamente desde el Flujo de Data Wrangler**: Abra el flujo y seleccione 'Usar Conjunto de Datos de Ejemplo'. 2. **Cargar a Amazon S3**: Cargue el conjunto de datos en un bucket de Amazon S3 y luego impórtelo en Data Wrangler. Para cargar el conjunto de datos en Amazon S3: 1. **Descargar el Conjunto de Datos del Titanic**: Descargue el conjunto de datos del Titanic. 2. **Cargar a S3**: Cargue el conjunto de datos en un bucket de Amazon S3 en la región de AWS que pretende utilizar para esta demostración. Puede usar la consola de Amazon S3 para arrastrar y soltar el archivo. Una vez que el conjunto de datos se haya cargado correctamente en Amazon S3, puede importarlo en Data Wrangler: 1. **Seleccionar Importar Datos**: En la pestaña del flujo de datos, seleccione el botón 'Importar Datos' o la pestaña 'Importar'. 2. **Elegir Amazon S3**: Seleccione 'Amazon S3'. 3. **Localizar el Conjunto de Datos**: Utilice la tabla de importación de conjuntos de datos para encontrar el bucket donde agregó el conjunto de datos del Titanic. Seleccione el archivo CSV para abrir el panel de detalles. 4. **Configurar Detalles**: Asegúrese de que el tipo de archivo sea CSV y marque la casilla que indica que la primera fila es la cabecera. También puede dar al conjunto de datos un nombre amigable, como 'Titanic-train'. 5. **Importar**: Seleccione el botón 'Importar'. Después de importar el conjunto de datos, aparecerá en la pestaña del flujo de datos. Haga doble clic en el nodo para entrar en la vista de detalles del nodo, donde puede agregar transformaciones o análisis.

“ Análisis y Visualización de Datos

Data Wrangler proporciona capacidades de transformación y visualización integradas para analizar, limpiar y transformar sus datos. El panel derecho en la vista de detalles del nodo enumera todas las transformaciones integradas y una sección para agregar transformaciones personalizadas. **Creación de un Informe de Calidad y Perspectivas de Datos** Para obtener información sobre sus datos, cree un informe de calidad y perspectivas de datos. Este informe le ayuda a identificar problemas como valores faltantes y valores atípicos. También le alerta sobre posibles problemas como fugas de destino o desequilibrios. **Creación de un Resumen de Tabla** 1. **Agregar Análisis**: Seleccione el '+' junto al paso del tipo de datos en el flujo de datos y elija 'Agregar Análisis'. 2. **Seleccionar Resumen de Tabla**: En el área de análisis, elija 'Resumen de Tabla' de la lista desplegable. 3. **Nombrar el Resumen**: Dé un nombre al resumen de la tabla. 4. **Vista Previa**: Seleccione 'Vista Previa' para ver una vista previa de la tabla. 5. **Guardar**: Seleccione 'Guardar' para agregarlo a su flujo de datos. Los datos se mostrarán en 'Todos los Análisis'. De las estadísticas proporcionadas, puede hacer observaciones como la tarifa promedio y la presencia de valores faltantes en columnas como 'cabin', 'embarked' y 'age'.

“ Transformación de Datos con Data Wrangler

Después de analizar sus datos, puede limpiarlos y prepararlos para el entrenamiento agregando transformaciones al flujo de datos. Aquí hay algunas transformaciones comunes que puede realizar: **Eliminación de Columnas No Utilizadas** 1. **Agregar Transformación**: Seleccione el '+' junto al paso del tipo de datos en el flujo de datos y elija 'Agregar Transformación'. 2. **Seleccionar Administrar Columnas**: En la columna 'Todos los Pasos', elija 'Agregar Paso' y luego seleccione 'Administrar Columnas' de la lista de transformaciones estándar. Asegúrese de que 'Eliminar columna' esté seleccionado. 3. **Elegir Columnas a Eliminar**: Seleccione las columnas que no desea utilizar para el entrenamiento, como 'cabin', 'ticket', 'name', 'sibsp', 'parch', 'home.dest', 'boat' y 'body'. 4. **Vista Previa y Agregar**: Seleccione 'Vista Previa' para verificar que las columnas se eliminan, luego seleccione 'Agregar'. **Limpieza de Valores Faltantes** 1. **Seleccionar Manejar Valores Faltantes**: Elija 'Manejar valores faltantes'. 2. **Elegir Eliminar Valores Faltantes**: Seleccione 'Eliminar valores faltantes' para el transformador. 3. **Seleccionar Columna de Entrada**: Elija la columna con valores faltantes, como 'age'. 4. **Vista Previa y Agregar**: Seleccione 'Vista Previa' para ver el nuevo dataframe, luego seleccione 'Agregar' para añadir la transformación a su flujo. **Transformaciones Personalizadas con Pandas** También puede usar transformaciones personalizadas con Pandas para realizar manipulaciones de datos más complejas. Por ejemplo, puede usar codificación one-hot para datos categóricos: ```python import pandas as pd dummies = [] cols = ['pclass','sex','embarked'] for col in cols: dummies.append(pd.get_dummies(df[col])) encoded = pd.concat(dummies, axis=1) df = pd.concat((df, encoded),axis=1) ``` **Transformaciones Personalizadas con SQL** Puede usar SQL para seleccionar columnas específicas para un análisis posterior: ```sql SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df; ```

“ Exportación de Flujos de Datos e Integración con SageMaker

Una vez que haya creado su flujo de datos, puede exportarlo para su uso posterior. Una opción común es exportarlo a un cuaderno de trabajo de trabajos de Data Wrangler. Este proceso crea automáticamente un cuaderno de Jupyter que está configurado para ejecutar un trabajo de procesamiento de SageMaker para ejecutar su flujo de datos de Data Wrangler. **Exportación a un Cuaderno de Trabajo de Trabajos de Data Wrangler** 1. **Guardar el Flujo de Datos**: Seleccione 'Archivo' y luego 'Guardar Flujo de Data Wrangler'. 2. **Volver a la Pestaña de Flujo de Datos**: Regrese a la pestaña del flujo de datos y seleccione el último paso de su flujo de datos. 3. **Seleccionar Exportar**: Elija 'Exportar' y luego 'Amazon S3 (a través de Jupyter Notebook)'. Esto abrirá un cuaderno de Jupyter. 4. **Seleccionar Kernel**: Elija cualquier kernel de Python 3 (Ciencia de Datos). 5. **Ejecutar el Cuaderno**: Ejecute las celdas del cuaderno hasta llegar a la sección 'Iniciar Trabajo de Entrenamiento de SageMaker (opcional)'. Puede monitorear el estado de su trabajo de Data Wrangler en la pestaña 'Procesamiento' de la consola de IA de SageMaker. También puede usar Amazon CloudWatch para monitorear su trabajo de Data Wrangler.

“ Entrenamiento de un Clasificador XGBoost con Datos Preparados

Después de preparar sus datos con Data Wrangler, puede entrenar un clasificador binario XGBoost utilizando un cuaderno de Jupyter o Amazon Autopilot. Autopilot puede entrenar y optimizar modelos automáticamente basándose en los datos transformados directamente desde su flujo de Data Wrangler. **Entrenamiento con un Cuaderno de Jupyter** En el mismo cuaderno donde lanzó el trabajo de Data Wrangler, puede extraer los datos preparados y entrenar un clasificador binario XGBoost con una preparación de datos adicional mínima. 1. **Actualizar Módulos Necesarios**: Use pip para actualizar los módulos necesarios y eliminar el archivo `_SUCCESS`: ```bash ! pip install --upgrade awscli awswrangler boto sklearn ! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*" ``` 2. **Leer Datos de Amazon S3**: Use awswrangler para leer recursivamente todos los archivos CSV del prefijo S3. Luego, divida los datos en características y etiquetas. ```python import awswrangler as wr df = wr.s3.read_csv(path=output_path, dataset=True) X, y = df.iloc[:,:-1],df.iloc[:,-1] ``` 3. **Crear DMatrices y Realizar Validación Cruzada**: Cree DMatrices (la estructura de datos nativa para XGBoost) y utilice la clasificación binaria de XGBoost para la validación cruzada. ```python import xgboost as xgb dmatrix = xgb.DMatrix(data=X, label=y) params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10} xgb.cv( dtrain=dmatrix, params=params, nfold=3, num_boost_round=50, early_stopping_rounds=10, metrics="rmse", as_pandas=True, seed=123) ```

“ Actualización y Cierre de Data Wrangler

Para asegurarse de tener las últimas funciones y actualizaciones, se recomienda actualizar regularmente la aplicación Data Wrangler Studio Classic. Para actualizar, consulte la documentación sobre cómo cerrar y actualizar las aplicaciones de Studio Classic. Una vez que haya terminado de usar Data Wrangler, es aconsejable cerrar las instancias en ejecución para evitar incurrir en costos adicionales. Consulte la documentación sobre cómo cerrar Data Wrangler para obtener instrucciones sobre cómo apagar la aplicación y las instancias asociadas.

Enlace original: https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-wrangler-getting-started.html

Comentario(0)

Desc

Amazon SageMaker Data Wrangler: Simplifica la Preparación de Datos para el Aprendizaje Automático

• puntos principales

• ideas únicas

• aplicaciones prácticas

• temas clave

• ideas clave

• resultados de aprendizaje

Tabla de contenidos

“ Introducción a Amazon SageMaker Data Wrangler

“ Requisitos Previos para Usar Data Wrangler

“ Acceso a Data Wrangler en SageMaker Studio Classic

“ Exploración de las Funciones de Data Wrangler: Un Recorrido con el Conjunto de Datos del Titanic

“ Importación y Preparación de Datos con Data Wrangler

“ Análisis y Visualización de Datos

“ Transformación de Datos con Data Wrangler

“ Exportación de Flujos de Datos e Integración con SageMaker

“ Entrenamiento de un Clasificador XGBoost con Datos Preparados

“ Actualización y Cierre de Data Wrangler

Comentario(0)

Aprendizaje Similar

Dominando la API de OpenAI: Una Guía Completa para Usar GPT-3.5 y GPT-4 en Python

Luma AI: Transformando la Modelación 3D con Innovaciones de IA Visual

Maximizando el Blueprint PIR de Feedly para una Inteligencia de Amenazas Efectiva

Pasos Prácticos para un Modelado de Amenazas Efectivo en Ciberseguridad

Dominando las Acciones de IA: Una Guía para Optimizar Prompts para Obtener Perspectivas Efectivas

Dominando los Heatmaps de Seaborn para una Visualización de Datos Efectiva

Herramientas Relacionadas

Perplexity AI

Claude

Notion AI

Salesforce Einstein

QuillBot

Grammarly