Amazon SageMaker Data Wrangler: Simplifica la Preparación de Datos para el Aprendizaje Automático
Discusión en profundidad
Técnico, fácil de entender
0 0 1
Este artículo proporciona una guía completa sobre cómo acceder y utilizar Amazon SageMaker Data Wrangler, cubriendo los requisitos previos, la preparación de datos y el entrenamiento de modelos utilizando el conjunto de datos del Titanic. Incluye instrucciones paso a paso para importar datos, aplicar transformaciones y exportar flujos de datos.
puntos principales
ideas únicas
aplicaciones prácticas
temas clave
ideas clave
resultados de aprendizaje
• puntos principales
1
Instrucciones detalladas paso a paso para usar Data Wrangler
2
Ejemplos prácticos utilizando el conjunto de datos del Titanic
3
Cobertura completa de la preparación de datos y el entrenamiento de modelos
• ideas únicas
1
Integración de Data Wrangler con Amazon S3 para la importación de datos
2
Uso de transformaciones integradas y código Python personalizado para la limpieza de datos
• aplicaciones prácticas
El artículo proporciona orientación práctica para que los usuarios preparen datos de manera efectiva para el aprendizaje automático, lo que lo hace valioso tanto para principiantes como para usuarios experimentados.
• temas clave
1
Preparación de datos usando Data Wrangler
2
Entrenamiento de modelos con XGBoost
3
Integración con Amazon S3
• ideas clave
1
Tutorial práctico con un conjunto de datos real
2
Instrucciones claras tanto para usuarios novatos como avanzados
3
Enfoque en aplicaciones prácticas de herramientas de preparación de datos
• resultados de aprendizaje
1
Comprensión de cómo acceder y utilizar Amazon SageMaker Data Wrangler
2
Capacidad para preparar datos para modelos de aprendizaje automático
3
Conocimiento de la integración de Data Wrangler con servicios de AWS
Amazon SageMaker Data Wrangler es una herramienta potente dentro de Amazon SageMaker Studio Classic diseñada para agilizar y simplificar el proceso de preparación de datos para proyectos de aprendizaje automático (ML). Proporciona una interfaz visual y fácil de usar que permite a los científicos de datos e ingenieros de ML importar, analizar, transformar y exportar datos de manera eficiente. Al utilizar Data Wrangler, los usuarios pueden reducir significativamente el tiempo y el esfuerzo requeridos para preparar datos, permitiéndoles centrarse más en el desarrollo y la implementación de modelos. Esta guía completa lo llevará a través de los aspectos esenciales de Data Wrangler, desde su configuración hasta el aprovechamiento de sus funciones avanzadas para la manipulación de datos y el entrenamiento de modelos.
“ Requisitos Previos para Usar Data Wrangler
Antes de poder empezar a usar Amazon SageMaker Data Wrangler, debe asegurarse de haber cumplido los requisitos previos necesarios. Estos incluyen tener acceso a una instancia de Amazon EC2, configurar la seguridad y los permisos requeridos, y tener una instancia activa de Studio Classic.
1. **Instancia de Amazon EC2**: Necesita acceso a una instancia de Amazon Elastic Compute Cloud (Amazon EC2). Consulte la documentación de AWS para obtener más información sobre los tipos de instancias disponibles y cómo solicitar un aumento de cuotas si es necesario.
2. **Seguridad y Permisos**: Configure los permisos necesarios según lo descrito en la documentación de seguridad y permisos. Esto garantiza que tenga los derechos de acceso adecuados para utilizar Data Wrangler y los servicios relacionados de AWS.
3. **Acceso al Firewall**: Si su organización utiliza un firewall que bloquea el tráfico de Internet, asegúrese de tener acceso a las siguientes URL:
* `https://ui.prod-1.data-wrangler.sagemaker.aws/`
* `https://ui.prod-2.data-wrangler.sagemaker.aws/`
* `https://ui.prod-3.data-wrangler.sagemaker.aws/`
* `https://ui.prod-4.data-wrangler.sagemaker.aws/`
4. **Instancia Activa de Studio Classic**: Necesita una instancia activa de Studio Classic. Siga las instrucciones de la Descripción general del dominio de IA de Amazon SageMaker para lanzar una nueva instancia si aún no tiene una. Asegúrese de que la aplicación KernelGateway esté en estado 'Listo' antes de continuar.
“ Acceso a Data Wrangler en SageMaker Studio Classic
Una vez que haya completado los requisitos previos, puede acceder a Data Wrangler dentro de SageMaker Studio Classic siguiendo estos pasos:
1. **Iniciar sesión en Studio Classic**: Utilice sus credenciales para iniciar sesión en SageMaker Studio Classic. Consulte la Descripción general del dominio de IA de Amazon SageMaker para obtener más información.
2. **Seleccionar Studio**: Navegue a la interfaz de Studio.
3. **Lanzar Aplicación**: Elija 'Studio' en la lista desplegable de aplicaciones.
4. **Ir a Inicio**: Seleccione el icono de inicio para acceder al panel principal.
5. **Elegir Datos**: Haga clic en la opción 'Datos'.
6. **Seleccionar Data Wrangler**: Elija 'Data Wrangler' para iniciar la aplicación.
Alternativamente, puede crear un nuevo flujo de Data Wrangler de la siguiente manera:
1. **Seleccionar Archivo**: En la barra de navegación superior, elija 'Archivo'.
2. **Elegir Nuevo**: Seleccione 'Nuevo'.
3. **Seleccionar Flujo de Data Wrangler**: Elija 'Flujo de Data Wrangler'.
También puede renombrar el nuevo directorio y el archivo `.flow` según sea necesario. Tenga en cuenta que la carga inicial de Data Wrangler puede tardar unos minutos, y puede aparecer un carrusel hasta que la aplicación KernelGateway esté lista.
“ Exploración de las Funciones de Data Wrangler: Un Recorrido con el Conjunto de Datos del Titanic
Para ayudarlo a comprender cómo usar Data Wrangler, esta sección proporciona un recorrido utilizando el conjunto de datos del Titanic. Este conjunto de datos contiene información sobre los pasajeros del Titanic, incluido su estado de supervivencia, edad, género y clase. Al seguir este recorrido, aprenderá a importar, analizar, transformar y exportar datos utilizando Data Wrangler.
**Pasos del Recorrido:**
1. **Abrir Flujo de Data Wrangler**: Abra un nuevo flujo de Data Wrangler y elija usar un conjunto de datos de ejemplo, o cargue el conjunto de datos del Titanic en Amazon S3 e impórtelo en Data Wrangler.
2. **Analizar el Conjunto de Datos**: Utilice las herramientas de análisis de Data Wrangler para explorar el conjunto de datos y obtener información.
3. **Definir Flujo de Datos**: Utilice las funciones de transformación de datos de Data Wrangler para definir un flujo de datos.
4. **Exportar el Flujo**: Exporte su flujo a un cuaderno de Jupyter para crear un trabajo de Data Wrangler.
5. **Procesar Datos**: Procese sus datos e inicie un trabajo de entrenamiento de SageMaker para entrenar un clasificador binario XGBoost.
“ Importación y Preparación de Datos con Data Wrangler
Puede importar el conjunto de datos del Titanic a Data Wrangler utilizando uno de los siguientes métodos:
1. **Importar Directamente desde el Flujo de Data Wrangler**: Abra el flujo y seleccione 'Usar Conjunto de Datos de Ejemplo'.
2. **Cargar a Amazon S3**: Cargue el conjunto de datos en un bucket de Amazon S3 y luego impórtelo en Data Wrangler.
Para cargar el conjunto de datos en Amazon S3:
1. **Descargar el Conjunto de Datos del Titanic**: Descargue el conjunto de datos del Titanic.
2. **Cargar a S3**: Cargue el conjunto de datos en un bucket de Amazon S3 en la región de AWS que pretende utilizar para esta demostración. Puede usar la consola de Amazon S3 para arrastrar y soltar el archivo.
Una vez que el conjunto de datos se haya cargado correctamente en Amazon S3, puede importarlo en Data Wrangler:
1. **Seleccionar Importar Datos**: En la pestaña del flujo de datos, seleccione el botón 'Importar Datos' o la pestaña 'Importar'.
2. **Elegir Amazon S3**: Seleccione 'Amazon S3'.
3. **Localizar el Conjunto de Datos**: Utilice la tabla de importación de conjuntos de datos para encontrar el bucket donde agregó el conjunto de datos del Titanic. Seleccione el archivo CSV para abrir el panel de detalles.
4. **Configurar Detalles**: Asegúrese de que el tipo de archivo sea CSV y marque la casilla que indica que la primera fila es la cabecera. También puede dar al conjunto de datos un nombre amigable, como 'Titanic-train'.
5. **Importar**: Seleccione el botón 'Importar'.
Después de importar el conjunto de datos, aparecerá en la pestaña del flujo de datos. Haga doble clic en el nodo para entrar en la vista de detalles del nodo, donde puede agregar transformaciones o análisis.
“ Análisis y Visualización de Datos
Data Wrangler proporciona capacidades de transformación y visualización integradas para analizar, limpiar y transformar sus datos. El panel derecho en la vista de detalles del nodo enumera todas las transformaciones integradas y una sección para agregar transformaciones personalizadas.
**Creación de un Informe de Calidad y Perspectivas de Datos**
Para obtener información sobre sus datos, cree un informe de calidad y perspectivas de datos. Este informe le ayuda a identificar problemas como valores faltantes y valores atípicos. También le alerta sobre posibles problemas como fugas de destino o desequilibrios.
**Creación de un Resumen de Tabla**
1. **Agregar Análisis**: Seleccione el '+' junto al paso del tipo de datos en el flujo de datos y elija 'Agregar Análisis'.
2. **Seleccionar Resumen de Tabla**: En el área de análisis, elija 'Resumen de Tabla' de la lista desplegable.
3. **Nombrar el Resumen**: Dé un nombre al resumen de la tabla.
4. **Vista Previa**: Seleccione 'Vista Previa' para ver una vista previa de la tabla.
5. **Guardar**: Seleccione 'Guardar' para agregarlo a su flujo de datos. Los datos se mostrarán en 'Todos los Análisis'.
De las estadísticas proporcionadas, puede hacer observaciones como la tarifa promedio y la presencia de valores faltantes en columnas como 'cabin', 'embarked' y 'age'.
“ Transformación de Datos con Data Wrangler
Después de analizar sus datos, puede limpiarlos y prepararlos para el entrenamiento agregando transformaciones al flujo de datos. Aquí hay algunas transformaciones comunes que puede realizar:
**Eliminación de Columnas No Utilizadas**
1. **Agregar Transformación**: Seleccione el '+' junto al paso del tipo de datos en el flujo de datos y elija 'Agregar Transformación'.
2. **Seleccionar Administrar Columnas**: En la columna 'Todos los Pasos', elija 'Agregar Paso' y luego seleccione 'Administrar Columnas' de la lista de transformaciones estándar. Asegúrese de que 'Eliminar columna' esté seleccionado.
3. **Elegir Columnas a Eliminar**: Seleccione las columnas que no desea utilizar para el entrenamiento, como 'cabin', 'ticket', 'name', 'sibsp', 'parch', 'home.dest', 'boat' y 'body'.
4. **Vista Previa y Agregar**: Seleccione 'Vista Previa' para verificar que las columnas se eliminan, luego seleccione 'Agregar'.
**Limpieza de Valores Faltantes**
1. **Seleccionar Manejar Valores Faltantes**: Elija 'Manejar valores faltantes'.
2. **Elegir Eliminar Valores Faltantes**: Seleccione 'Eliminar valores faltantes' para el transformador.
3. **Seleccionar Columna de Entrada**: Elija la columna con valores faltantes, como 'age'.
4. **Vista Previa y Agregar**: Seleccione 'Vista Previa' para ver el nuevo dataframe, luego seleccione 'Agregar' para añadir la transformación a su flujo.
**Transformaciones Personalizadas con Pandas**
También puede usar transformaciones personalizadas con Pandas para realizar manipulaciones de datos más complejas. Por ejemplo, puede usar codificación one-hot para datos categóricos:
```python
import pandas as pd
dummies = []
cols = ['pclass','sex','embarked']
for col in cols:
dummies.append(pd.get_dummies(df[col]))
encoded = pd.concat(dummies, axis=1)
df = pd.concat((df, encoded),axis=1)
```
**Transformaciones Personalizadas con SQL**
Puede usar SQL para seleccionar columnas específicas para un análisis posterior:
```sql
SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
```
“ Exportación de Flujos de Datos e Integración con SageMaker
Una vez que haya creado su flujo de datos, puede exportarlo para su uso posterior. Una opción común es exportarlo a un cuaderno de trabajo de trabajos de Data Wrangler. Este proceso crea automáticamente un cuaderno de Jupyter que está configurado para ejecutar un trabajo de procesamiento de SageMaker para ejecutar su flujo de datos de Data Wrangler.
**Exportación a un Cuaderno de Trabajo de Trabajos de Data Wrangler**
1. **Guardar el Flujo de Datos**: Seleccione 'Archivo' y luego 'Guardar Flujo de Data Wrangler'.
2. **Volver a la Pestaña de Flujo de Datos**: Regrese a la pestaña del flujo de datos y seleccione el último paso de su flujo de datos.
3. **Seleccionar Exportar**: Elija 'Exportar' y luego 'Amazon S3 (a través de Jupyter Notebook)'. Esto abrirá un cuaderno de Jupyter.
4. **Seleccionar Kernel**: Elija cualquier kernel de Python 3 (Ciencia de Datos).
5. **Ejecutar el Cuaderno**: Ejecute las celdas del cuaderno hasta llegar a la sección 'Iniciar Trabajo de Entrenamiento de SageMaker (opcional)'.
Puede monitorear el estado de su trabajo de Data Wrangler en la pestaña 'Procesamiento' de la consola de IA de SageMaker. También puede usar Amazon CloudWatch para monitorear su trabajo de Data Wrangler.
“ Entrenamiento de un Clasificador XGBoost con Datos Preparados
Después de preparar sus datos con Data Wrangler, puede entrenar un clasificador binario XGBoost utilizando un cuaderno de Jupyter o Amazon Autopilot. Autopilot puede entrenar y optimizar modelos automáticamente basándose en los datos transformados directamente desde su flujo de Data Wrangler.
**Entrenamiento con un Cuaderno de Jupyter**
En el mismo cuaderno donde lanzó el trabajo de Data Wrangler, puede extraer los datos preparados y entrenar un clasificador binario XGBoost con una preparación de datos adicional mínima.
1. **Actualizar Módulos Necesarios**: Use pip para actualizar los módulos necesarios y eliminar el archivo `_SUCCESS`:
```bash
! pip install --upgrade awscli awswrangler boto sklearn
! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*"
```
2. **Leer Datos de Amazon S3**: Use awswrangler para leer recursivamente todos los archivos CSV del prefijo S3. Luego, divida los datos en características y etiquetas.
```python
import awswrangler as wr
df = wr.s3.read_csv(path=output_path, dataset=True)
X, y = df.iloc[:,:-1],df.iloc[:,-1]
```
3. **Crear DMatrices y Realizar Validación Cruzada**: Cree DMatrices (la estructura de datos nativa para XGBoost) y utilice la clasificación binaria de XGBoost para la validación cruzada.
```python
import xgboost as xgb
dmatrix = xgb.DMatrix(data=X, label=y)
params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
xgb.cv(
dtrain=dmatrix,
params=params,
nfold=3,
num_boost_round=50,
early_stopping_rounds=10,
metrics="rmse",
as_pandas=True,
seed=123)
```
“ Actualización y Cierre de Data Wrangler
Para asegurarse de tener las últimas funciones y actualizaciones, se recomienda actualizar regularmente la aplicación Data Wrangler Studio Classic. Para actualizar, consulte la documentación sobre cómo cerrar y actualizar las aplicaciones de Studio Classic.
Una vez que haya terminado de usar Data Wrangler, es aconsejable cerrar las instancias en ejecución para evitar incurrir en costos adicionales. Consulte la documentación sobre cómo cerrar Data Wrangler para obtener instrucciones sobre cómo apagar la aplicación y las instancias asociadas.
Utilizamos cookies que son esenciales para el funcionamiento de nuestro sitio. Para mejorar nuestro sitio, nos gustaría usar cookies adicionales para ayudarnos a entender cómo los visitantes lo utilizan, medir el tráfico desde plataformas de redes sociales y personalizar tu experiencia. Algunas de las cookies que usamos son proporcionadas por terceros. Para aceptar todas las cookies, haz clic en 'Aceptar'. Para rechazar todas las cookies opcionales, haz clic en 'Rechazar'.
Comentario(0)