Amazon SageMaker Data Wrangler: Simplifique a Preparação de Dados para Machine Learning
Discussão aprofundada
Técnico, fácil de entender
0 0 1
Este artigo fornece um guia abrangente sobre como acessar e utilizar o Amazon SageMaker Data Wrangler, cobrindo pré-requisitos, preparação de dados e treinamento de modelos usando o conjunto de dados Titanic. Inclui instruções passo a passo para importar dados, aplicar transformações e exportar fluxos de dados.
pontos principais
insights únicos
aplicações práticas
tópicos-chave
insights principais
resultados de aprendizagem
• pontos principais
1
Instruções detalhadas passo a passo para usar o Data Wrangler
2
Exemplos práticos usando o conjunto de dados Titanic
3
Cobertura abrangente de preparação de dados e treinamento de modelos
• insights únicos
1
Integração do Data Wrangler com o Amazon S3 para importação de dados
2
Uso de transformações integradas e código Python personalizado para limpeza de dados
• aplicações práticas
O artigo fornece orientação prática para os usuários prepararem dados de forma eficaz para machine learning, tornando-o valioso tanto para iniciantes quanto para usuários experientes.
• tópicos-chave
1
Preparação de dados usando Data Wrangler
2
Treinamento de modelos com XGBoost
3
Integração com Amazon S3
• insights principais
1
Tutorial prático com um conjunto de dados real
2
Instruções claras para usuários novatos e avançados
3
Foco em aplicações práticas de ferramentas de preparação de dados
• resultados de aprendizagem
1
Compreensão de como acessar e usar o Amazon SageMaker Data Wrangler
2
Capacidade de preparar dados para modelos de machine learning
3
Conhecimento sobre a integração do Data Wrangler com serviços AWS
Amazon SageMaker Data Wrangler é uma ferramenta poderosa dentro do Amazon SageMaker Studio Classic projetada para otimizar e simplificar o processo de preparação de dados para projetos de machine learning (ML). Ele fornece uma interface visual e amigável que permite que cientistas de dados e engenheiros de ML importem, analisem, transformem e exportem dados de forma eficiente. Ao usar o Data Wrangler, os usuários podem reduzir significativamente o tempo e o esforço necessários para preparar dados, permitindo que se concentrem mais no desenvolvimento e implantação de modelos. Este guia abrangente o conduzirá pelos aspectos essenciais do Data Wrangler, desde a configuração até o aproveitamento de seus recursos avançados para manipulação de dados e treinamento de modelos.
“ Pré-requisitos para Usar o Data Wrangler
Antes de começar a usar o Amazon SageMaker Data Wrangler, você precisa garantir que atendeu aos pré-requisitos necessários. Estes incluem ter acesso a uma instância Amazon EC2, configurar a segurança e permissões necessárias e ter uma instância Studio Classic ativa.
1. **Instância Amazon EC2**: Você precisa de acesso a uma instância Amazon Elastic Compute Cloud (Amazon EC2). Consulte a documentação da AWS para mais informações sobre os tipos de instância disponíveis e como solicitar aumento de cotas, se necessário.
2. **Segurança e Permissões**: Configure as permissões necessárias conforme descrito na documentação de segurança e permissões. Isso garante que você tenha os direitos de acesso apropriados para usar o Data Wrangler e serviços relacionados da AWS.
3. **Acesso ao Firewall**: Se sua organização usa um firewall que bloqueia o tráfego da internet, certifique-se de ter acesso aos seguintes URLs:
* `https://ui.prod-1.data-wrangler.sagemaker.aws/`
* `https://ui.prod-2.data-wrangler.sagemaker.aws/`
* `https://ui.prod-3.data-wrangler.sagemaker.aws/`
* `https://ui.prod-4.data-wrangler.sagemaker.aws/`
4. **Instância Studio Classic Ativa**: Você precisa de uma instância Studio Classic ativa. Siga as instruções na Visão Geral do Domínio de IA do Amazon SageMaker para iniciar uma nova instância, se você ainda não tiver uma. Certifique-se de que o aplicativo KernelGateway esteja em um estado 'Pronto' antes de prosseguir.
“ Acessando o Data Wrangler no SageMaker Studio Classic
Depois de concluir os pré-requisitos, você pode acessar o Data Wrangler no SageMaker Studio Classic seguindo estas etapas:
1. **Faça login no Studio Classic**: Use suas credenciais para fazer login no SageMaker Studio Classic. Consulte a Visão Geral do Domínio de IA do Amazon SageMaker para mais informações.
2. **Selecione Studio**: Navegue até a interface do Studio.
3. **Inicie o Aplicativo**: Escolha 'Studio' na lista suspensa de aplicativos.
4. **Vá para Início**: Selecione o ícone de início para acessar o painel principal.
5. **Escolha Dados**: Clique na opção 'Dados'.
6. **Selecione Data Wrangler**: Escolha 'Data Wrangler' para iniciar o aplicativo.
Alternativamente, você pode criar um novo fluxo do Data Wrangler:
1. **Selecionar Arquivo**: Na barra de navegação superior, escolha 'Arquivo'.
2. **Escolher Novo**: Selecione 'Novo'.
3. **Selecionar Fluxo do Data Wrangler**: Escolha 'Fluxo do Data Wrangler'.
Você também pode renomear o novo diretório e arquivo `.flow` conforme necessário. Observe que o carregamento inicial do Data Wrangler pode levar alguns minutos, e um carrossel pode aparecer até que o aplicativo KernelGateway esteja pronto.
“ Explorando os Recursos do Data Wrangler: Um Tutorial com o Conjunto de Dados Titanic
Para ajudá-lo a entender como usar o Data Wrangler, esta seção fornece um tutorial usando o conjunto de dados Titanic. Este conjunto de dados contém informações sobre passageiros do Titanic, incluindo seu status de sobrevivência, idade, gênero e classe. Ao seguir este tutorial, você aprenderá a importar, analisar, transformar e exportar dados usando o Data Wrangler.
**Etapas do Tutorial:**
1. **Abra o Fluxo do Data Wrangler**: Abra um novo fluxo do Data Wrangler e escolha usar um conjunto de dados de exemplo, ou carregue o conjunto de dados Titanic no Amazon S3 e importe-o para o Data Wrangler.
2. **Analise o Conjunto de Dados**: Use as ferramentas de análise do Data Wrangler para explorar o conjunto de dados e obter insights.
3. **Defina o Fluxo de Dados**: Use os recursos de transformação de dados do Data Wrangler para definir um fluxo de dados.
4. **Exporte o Fluxo**: Exporte seu fluxo para um notebook Jupyter para criar um trabalho do Data Wrangler.
5. **Processe os Dados**: Processe seus dados e inicie um trabalho de treinamento do SageMaker para treinar um classificador binário XGBoost.
“ Importando e Preparando Dados com o Data Wrangler
Você pode importar o conjunto de dados Titanic para o Data Wrangler usando um dos seguintes métodos:
1. **Importar Diretamente do Fluxo do Data Wrangler**: Abra o fluxo e selecione 'Usar Conjunto de Dados de Exemplo'.
2. **Carregar para o Amazon S3**: Carregue o conjunto de dados para um bucket do Amazon S3 e, em seguida, importe-o para o Data Wrangler.
Para carregar o conjunto de dados no Amazon S3:
1. **Baixe o Conjunto de Dados Titanic**: Baixe o conjunto de dados Titanic.
2. **Carregue para o S3**: Carregue o conjunto de dados para um bucket do Amazon S3 na região da AWS que você pretende usar para esta demonstração. Você pode usar o console do Amazon S3 para arrastar e soltar o arquivo.
Após o conjunto de dados ser carregado com sucesso no Amazon S3, você pode importá-lo para o Data Wrangler:
1. **Selecione Importar Dados**: Na guia do fluxo de dados, selecione o botão 'Importar Dados' ou a guia 'Importar'.
2. **Escolha Amazon S3**: Selecione 'Amazon S3'.
3. **Localize o Conjunto de Dados**: Use a tabela de importação de conjunto de dados para encontrar o bucket onde você adicionou o conjunto de dados Titanic. Selecione o arquivo CSV para abrir o painel de detalhes.
4. **Configure os Detalhes**: Certifique-se de que o tipo de arquivo seja CSV e marque a caixa indicando que a primeira linha é o cabeçalho. Você também pode dar um nome amigável ao conjunto de dados, como 'Titanic-train'.
5. **Importar**: Selecione o botão 'Importar'.
Após importar o conjunto de dados, ele aparecerá na guia do fluxo de dados. Dê um duplo clique no nó para entrar na visualização de detalhes do nó, onde você pode adicionar transformações ou análises.
“ Analisando e Visualizando Dados
O Data Wrangler oferece recursos de transformação e visualização integrados para analisar, limpar e transformar seus dados. O painel direito na visualização de detalhes do nó lista todas as transformações integradas e uma seção para adicionar transformações personalizadas.
**Criando um Relatório de Qualidade e Insights de Dados**
Para obter insights sobre seus dados, crie um relatório de qualidade e insights de dados. Este relatório ajuda a identificar problemas como valores ausentes e outliers. Ele também alerta para problemas potenciais como vazamento de destino ou desequilíbrio.
**Criando um Resumo de Tabela**
1. **Adicionar Análise**: Selecione o '+' ao lado da etapa de tipo de dados no fluxo de dados e escolha 'Adicionar Análise'.
2. **Selecionar Resumo de Tabela**: Na área de análise, escolha 'Resumo de Tabela' na lista suspensa.
3. **Nomear o Resumo**: Dê um nome ao resumo da tabela.
4. **Visualizar**: Selecione 'Visualizar' para ver uma prévia da tabela.
5. **Salvar**: Selecione 'Salvar' para adicioná-lo ao seu fluxo de dados. Os dados serão exibidos em 'Todas as Análises'.
Das estatísticas fornecidas, você pode fazer observações como a tarifa média e a presença de valores ausentes em colunas como 'cabin', 'embarked' e 'age'.
“ Transformando Dados com o Data Wrangler
Após analisar seus dados, você pode limpá-los e prepará-los para treinamento adicionando transformações ao fluxo de dados. Aqui estão algumas transformações comuns que você pode realizar:
**Excluindo Colunas Não Utilizadas**
1. **Adicionar Transformação**: Selecione o '+' ao lado da etapa de tipo de dados no fluxo de dados e escolha 'Adicionar Transformação'.
2. **Selecionar Gerenciar Colunas**: Na coluna 'Todas as Etapas', escolha 'Adicionar Etapa' e, em seguida, selecione 'Gerenciar Colunas' na lista de transformações padrão. Certifique-se de que 'Excluir coluna' esteja selecionado.
3. **Escolher Colunas para Excluir**: Selecione as colunas que você não deseja usar para treinamento, como 'cabin', 'ticket', 'name', 'sibsp', 'parch', 'home.dest', 'boat' e 'body'.
4. **Visualizar e Adicionar**: Selecione 'Visualizar' para verificar se as colunas foram removidas e, em seguida, selecione 'Adicionar'.
**Limpando Valores Ausentes**
1. **Selecionar Tratar Valores Ausentes**: Escolha 'Tratar valores ausentes'.
2. **Escolher Excluir Valores Ausentes**: Selecione 'Excluir valores ausentes' para o transformador.
3. **Selecionar Coluna de Entrada**: Escolha a coluna com valores ausentes, como 'age'.
4. **Visualizar e Adicionar**: Selecione 'Visualizar' para ver o novo dataframe e, em seguida, selecione 'Adicionar' para adicionar a transformação ao seu fluxo.
**Transformações Personalizadas com Pandas**
Você também pode usar transformações personalizadas com Pandas para realizar manipulações de dados mais complexas. Por exemplo, você pode usar codificação one-hot para dados categóricos:
```python
import pandas as pd
dummies = []
cols = ['pclass','sex','embarked']
for col in cols:
dummies.append(pd.get_dummies(df[col]))
encoded = pd.concat(dummies, axis=1)
df = pd.concat((df, encoded),axis=1)
```
**Transformações Personalizadas com SQL**
Você pode usar SQL para selecionar colunas específicas para análise posterior:
```sql
SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
```
“ Exportando Fluxos de Dados e Integrando com o SageMaker
Depois de criar seu fluxo de dados, você pode exportá-lo para uso posterior. Uma opção comum é exportá-lo para um notebook de trabalho do Data Wrangler. Este processo cria automaticamente um notebook Jupyter configurado para executar um trabalho de processamento do SageMaker para executar seu fluxo de dados do Data Wrangler.
**Exportando para um Notebook de Trabalho do Data Wrangler**
1. **Salve o Fluxo de Dados**: Selecione 'Arquivo' e, em seguida, 'Salvar Fluxo do Data Wrangler'.
2. **Retorne à Guia Fluxo de Dados**: Volte para a guia do fluxo de dados e selecione a última etapa do seu fluxo de dados.
3. **Selecione Exportar**: Escolha 'Exportar' e, em seguida, 'Amazon S3 (via Jupyter Notebook)'. Isso abrirá um notebook Jupyter.
4. **Selecione o Kernel**: Escolha qualquer kernel Python 3 (Ciência de Dados).
5. **Execute o Notebook**: Execute as células do notebook até chegar à seção 'Iniciar Trabalho de Treinamento do SageMaker (opcional)'.
Você pode monitorar o status do seu trabalho do Data Wrangler na guia 'Processamento' do console de IA do SageMaker. Você também pode usar o Amazon CloudWatch para monitorar seu trabalho do Data Wrangler.
“ Treinando um Classificador XGBoost com Dados Preparados
Após preparar seus dados com o Data Wrangler, você pode treinar um classificador binário XGBoost usando um notebook Jupyter ou o Amazon Autopilot. O Autopilot pode treinar e otimizar modelos automaticamente com base nos dados transformados diretamente do seu fluxo do Data Wrangler.
**Treinamento com um Notebook Jupyter**
No mesmo notebook onde você iniciou o trabalho do Data Wrangler, você pode extrair os dados preparados e treinar um classificador binário XGBoost com preparação mínima de dados adicional.
1. **Atualize Módulos Necessários**: Use pip para atualizar os módulos necessários e remover o arquivo `_SUCCESS`:
```bash
! pip install --upgrade awscli awswrangler boto sklearn
! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*"
```
2. **Leia Dados do Amazon S3**: Use awswrangler para ler recursivamente todos os arquivos CSV do prefixo S3. Em seguida, divida os dados em recursos e rótulos.
```python
import awswrangler as wr
df = wr.s3.read_csv(path=output_path, dataset=True)
X, y = df.iloc[:,:-1],df.iloc[:,-1]
```
3. **Crie DMatrices e Realize Validação Cruzada**: Crie DMatrices (a estrutura de dados nativa para XGBoost) e use classificação binária XGBoost para validação cruzada.
```python
import xgboost as xgb
dmatrix = xgb.DMatrix(data=X, label=y)
params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
xgb.cv(
dtrain=dmatrix,
params=params,
nfold=3,
num_boost_round=50,
early_stopping_rounds=10,
metrics="rmse",
as_pandas=True,
seed=123)
```
“ Atualizando e Fechando o Data Wrangler
Para garantir que você tenha os recursos e atualizações mais recentes, é recomendado atualizar regularmente o aplicativo Data Wrangler Studio Classic. Para atualizar, consulte a documentação sobre como fechar e atualizar aplicativos Studio Classic.
Depois de terminar de usar o Data Wrangler, é aconselhável fechar as instâncias em execução para evitar custos adicionais. Consulte a documentação sobre como fechar o Data Wrangler para obter instruções sobre como desligar o aplicativo e as instâncias associadas.
Utilizamos cookies essenciais para o funcionamento do nosso site. Para melhorá-lo, gostaríamos de usar cookies adicionais para nos ajudar a entender como os visitantes o utilizam, medir o tráfego de plataformas de mídia social e personalizar sua experiência. Alguns dos cookies que usamos são fornecidos por terceiros. Para aceitar todos os cookies, clique em 'Aceitar'. Para rejeitar todos os cookies opcionais, clique em 'Rejeitar'.
Comentário(0)