Amazon SageMaker Data Wrangler: Упрощение подготовки данных для машинного обучения
Углубленное обсуждение
Технический, легко понятный
0 0 1
Эта статья представляет собой подробное руководство по доступу и использованию Amazon SageMaker Data Wrangler, охватывающее предварительные условия, подготовку данных и обучение моделей с использованием набора данных Titanic. Она включает пошаговые инструкции по импорту данных, применению преобразований и экспорту потоков данных.
основные моменты
уникальные идеи
практическое применение
ключевые темы
ключевые выводы
результаты обучения
• основные моменты
1
Подробные пошаговые инструкции по использованию Data Wrangler
2
Практические примеры с использованием набора данных Titanic
3
Комплексное освещение подготовки данных и обучения моделей
• уникальные идеи
1
Интеграция Data Wrangler с Amazon S3 для импорта данных
2
Использование встроенных преобразований и пользовательского кода Python для очистки данных
• практическое применение
Статья предоставляет практические рекомендации для пользователей по эффективной подготовке данных для машинного обучения, что делает ее ценной как для начинающих, так и для опытных пользователей.
• ключевые темы
1
Подготовка данных с помощью Data Wrangler
2
Обучение моделей с помощью XGBoost
3
Интеграция с Amazon S3
• ключевые выводы
1
Практический учебник с реальным набором данных
2
Четкие инструкции как для новичков, так и для продвинутых пользователей
3
Фокус на практическом применении инструментов подготовки данных
• результаты обучения
1
Понимание того, как получить доступ и использовать Amazon SageMaker Data Wrangler
2
Способность подготавливать данные для моделей машинного обучения
Amazon SageMaker Data Wrangler — это мощный инструмент в составе Amazon SageMaker Studio Classic, предназначенный для оптимизации и упрощения процесса подготовки данных для проектов машинного обучения (ML). Он предоставляет удобный визуальный интерфейс, который позволяет специалистам по данным и ML-инженерам эффективно импортировать, анализировать, преобразовывать и экспортировать данные. Используя Data Wrangler, пользователи могут значительно сократить время и усилия, затрачиваемые на подготовку данных, что позволяет им больше сосредоточиться на разработке и развертывании моделей. Это подробное руководство проведет вас через основные аспекты Data Wrangler, от его настройки до использования расширенных функций для манипулирования данными и обучения моделей.
“ Предварительные условия для использования Data Wrangler
Прежде чем начать использовать Amazon SageMaker Data Wrangler, убедитесь, что вы выполнили необходимые предварительные условия. К ним относятся доступ к экземпляру Amazon EC2, настройка необходимых разрешений и прав доступа, а также наличие активного экземпляра Studio Classic.
1. **Экземпляр Amazon EC2**: Вам нужен доступ к экземпляру Amazon Elastic Compute Cloud (Amazon EC2). Обратитесь к документации AWS для получения дополнительной информации о доступных типах экземпляров и о том, как запросить увеличение квот при необходимости.
2. **Безопасность и разрешения**: Настройте необходимые разрешения, как описано в документации по безопасности и разрешениям. Это гарантирует, что у вас есть соответствующие права доступа для использования Data Wrangler и связанных с ним сервисов AWS.
3. **Доступ к брандмауэру**: Если ваша организация использует брандмауэр, блокирующий интернет-трафик, убедитесь, что у вас есть доступ к следующим URL-адресам:
* `https://ui.prod-1.data-wrangler.sagemaker.aws/`
* `https://ui.prod-2.data-wrangler.sagemaker.aws/`
* `https://ui.prod-3.data-wrangler.sagemaker.aws/`
* `https://ui.prod-4.data-wrangler.sagemaker.aws/`
4. **Активный экземпляр Studio Classic**: Вам нужен активный экземпляр Studio Classic. Следуйте инструкциям в обзоре домена Amazon SageMaker AI, чтобы запустить новый экземпляр, если у вас его еще нет. Убедитесь, что приложение KernelGateway находится в состоянии «Готово» перед продолжением.
“ Доступ к Data Wrangler в SageMaker Studio Classic
После выполнения предварительных условий вы можете получить доступ к Data Wrangler в SageMaker Studio Classic, выполнив следующие шаги:
1. **Войдите в Studio Classic**: Используйте свои учетные данные для входа в SageMaker Studio Classic. Обратитесь к обзору домена Amazon SageMaker AI для получения дополнительной информации.
2. **Выберите Studio**: Перейдите в интерфейс Studio.
3. **Запустите приложение**: Выберите «Studio» из выпадающего списка приложений.
4. **Перейдите на главную**: Выберите значок дома, чтобы получить доступ к главной панели управления.
5. **Выберите Данные**: Нажмите на опцию «Данные».
6. **Выберите Data Wrangler**: Выберите «Data Wrangler», чтобы запустить приложение.
В качестве альтернативы вы можете создать новый поток Data Wrangler, выполнив следующие действия:
1. **Выберите Файл**: В верхней строке меню выберите «Файл».
2. **Выберите Создать**: Выберите «Создать».
3. **Выберите Поток Data Wrangler**: Выберите «Поток Data Wrangler».
Вы также можете переименовать новую директорию и файл `.flow` по мере необходимости. Обратите внимание, что первоначальная загрузка Data Wrangler может занять несколько минут, и может появиться карусель, пока приложение KernelGateway не будет готово.
“ Изучение функций Data Wrangler: руководство по набору данных Titanic
Чтобы помочь вам понять, как использовать Data Wrangler, этот раздел представляет собой пошаговое руководство с использованием набора данных Titanic. Этот набор данных содержит информацию о пассажирах Titanic, включая их статус выживания, возраст, пол и класс. Следуя этому руководству, вы научитесь импортировать, анализировать, преобразовывать и экспортировать данные с помощью Data Wrangler.
**Шаги в руководстве:**
1. **Откройте поток Data Wrangler**: Откройте новый поток Data Wrangler и выберите использование примера набора данных или загрузите набор данных Titanic в Amazon S3 и импортируйте его в Data Wrangler.
2. **Проанализируйте набор данных**: Используйте инструменты анализа Data Wrangler для изучения набора данных и получения информации.
3. **Определите поток данных**: Используйте функции преобразования данных Data Wrangler для определения потока данных.
4. **Экспортируйте поток**: Экспортируйте ваш поток в Jupyter notebook, чтобы создать задание Data Wrangler.
5. **Обработайте данные**: Обработайте ваши данные и запустите задание обучения SageMaker для обучения бинарного классификатора XGBoost.
“ Импорт и подготовка данных с помощью Data Wrangler
Вы можете импортировать набор данных Titanic в Data Wrangler одним из следующих способов:
1. **Импорт непосредственно из потока Data Wrangler**: Откройте поток и выберите «Использовать пример набора данных».
2. **Загрузка в Amazon S3**: Загрузите набор данных в бакет Amazon S3, а затем импортируйте его в Data Wrangler.
Чтобы загрузить набор данных в Amazon S3:
1. **Загрузите набор данных Titanic**: Загрузите набор данных Titanic.
2. **Загрузите в S3**: Загрузите набор данных в бакет Amazon S3 в регионе AWS, который вы намерены использовать для этой демонстрации. Вы можете использовать консоль Amazon S3 для перетаскивания файла.
После успешной загрузки набора данных в Amazon S3 вы можете импортировать его в Data Wrangler:
1. **Выберите Импорт данных**: На вкладке потока данных выберите кнопку «Импорт данных» или вкладку «Импорт».
2. **Выберите Amazon S3**: Выберите «Amazon S3».
3. **Найдите набор данных**: Используйте таблицу импорта набора данных, чтобы найти бакет, в который вы добавили набор данных Titanic. Выберите CSV-файл, чтобы открыть панель сведений.
4. **Настройте сведения**: Убедитесь, что тип файла — CSV, и установите флажок, указывающий, что первая строка является заголовком. Вы также можете дать набору данных понятное имя, например «Titanic-train».
5. **Импорт**: Выберите кнопку «Импорт».
После импорта набора данных он появится на вкладке потока данных. Дважды щелкните узел, чтобы войти в представление сведений узла, где вы можете добавлять преобразования или анализы.
“ Анализ и визуализация данных
Data Wrangler предоставляет встроенные возможности преобразования и визуализации для анализа, очистки и преобразования ваших данных. Правая панель в представлении сведений узла перечисляет все встроенные преобразования и раздел для добавления пользовательских преобразований.
**Создание отчета о качестве и аналитике данных**
Чтобы получить представление о ваших данных, создайте отчет о качестве и аналитике данных. Этот отчет поможет вам выявить проблемы, такие как пропущенные значения и выбросы. Он также предупредит вас о потенциальных проблемах, таких как утечка целевой переменной или несбалансированность.
**Создание сводки таблицы**
1. **Добавить анализ**: Выберите «+» рядом с шагом типа данных в потоке данных и выберите «Добавить анализ».
2. **Выберите сводку таблицы**: В области анализа выберите «Сводка таблицы» из выпадающего списка.
3. **Назовите сводку**: Дайте сводке таблицы имя.
4. **Предварительный просмотр**: Выберите «Предварительный просмотр», чтобы увидеть предварительный просмотр таблицы.
5. **Сохранить**: Выберите «Сохранить», чтобы добавить ее в ваш поток данных. Данные будут отображаться в разделе «Все анализы».
Из предоставленной статистики вы можете сделать выводы, такие как средняя стоимость проезда и наличие пропущенных значений в таких столбцах, как «cabin», «embarked» и «age».
“ Преобразование данных с помощью Data Wrangler
После анализа данных вы можете очистить и подготовить их для обучения, добавив преобразования в поток данных. Вот некоторые распространенные преобразования, которые вы можете выполнить:
**Удаление неиспользуемых столбцов**
1. **Добавить преобразование**: Выберите «+» рядом с шагом типа данных в потоке данных и выберите «Добавить преобразование».
2. **Выберите Управление столбцами**: В столбце «Все шаги» выберите «Добавить шаг», а затем выберите «Управление столбцами» из списка стандартных преобразований. Убедитесь, что выбрано «Удалить столбец».
3. **Выберите столбцы для удаления**: Выберите столбцы, которые вы не хотите использовать для обучения, такие как «cabin», «ticket», «name», «sibsp», «parch», «home.dest», «boat» и «body».
4. **Предварительный просмотр и добавление**: Выберите «Предварительный просмотр», чтобы убедиться, что столбцы удалены, затем выберите «Добавить».
**Очистка пропущенных значений**
1. **Выберите Обработка пропущенных значений**: Выберите «Обработка пропущенных значений».
2. **Выберите Удалить пропущенные значения**: Выберите «Удалить пропущенные значения» для преобразователя.
3. **Выберите входной столбец**: Выберите столбец с пропущенными значениями, например «age».
4. **Предварительный просмотр и добавление**: Выберите «Предварительный просмотр», чтобы увидеть новый фрейм данных, затем выберите «Добавить», чтобы добавить преобразование в ваш поток.
**Пользовательские преобразования с помощью Pandas**
Вы также можете использовать пользовательские преобразования с помощью Pandas для выполнения более сложных манипуляций с данными. Например, вы можете использовать one-hot encoding для категориальных данных:
```python
import pandas as pd
dummies = []
cols = ['pclass','sex','embarked']
for col in cols:
dummies.append(pd.get_dummies(df[col]))
encoded = pd.concat(dummies, axis=1)
df = pd.concat((df, encoded),axis=1)
```
**Пользовательские преобразования с помощью SQL**
Вы можете использовать SQL для выбора определенных столбцов для дальнейшего анализа:
```sql
SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
```
“ Экспорт потоков данных и интеграция с SageMaker
После создания потока данных вы можете экспортировать его для дальнейшего использования. Один из распространенных вариантов — экспорт в блокнот задания Data Wrangler. Этот процесс автоматически создает Jupyter notebook, который настроен для запуска задания обработки SageMaker для выполнения вашего потока данных Data Wrangler.
**Экспорт в блокнот задания Data Wrangler**
1. **Сохраните поток данных**: Выберите «Файл», а затем «Сохранить поток Data Wrangler».
2. **Вернитесь на вкладку потока данных**: Вернитесь на вкладку потока данных и выберите последний шаг в вашем потоке данных.
3. **Выберите Экспорт**: Выберите «Экспорт», а затем «Amazon S3 (через Jupyter Notebook)». Это откроет Jupyter notebook.
4. **Выберите ядро**: Выберите любое ядро Python 3 (Data Science).
5. **Запустите блокнот**: Запустите ячейки в блокноте, пока не дойдете до раздела «Запуск задания обучения SageMaker (необязательно)».
Вы можете отслеживать статус вашего задания Data Wrangler на вкладке «Обработка» в консоли SageMaker AI. Вы также можете использовать Amazon CloudWatch для мониторинга вашего задания Data Wrangler.
“ Обучение классификатора XGBoost на подготовленных данных
После подготовки данных с помощью Data Wrangler вы можете обучить бинарный классификатор XGBoost, используя либо Jupyter notebook, либо Amazon Autopilot. Autopilot может автоматически обучать и оптимизировать модели на основе данных, преобразованных непосредственно из вашего потока Data Wrangler.
**Обучение с помощью Jupyter Notebook**
В том же блокноте, где вы запустили задание Data Wrangler, вы можете извлечь подготовленные данные и обучить бинарный классификатор XGBoost с минимальной дополнительной подготовкой данных.
1. **Обновите необходимые модули**: Используйте pip для обновления необходимых модулей и удаления файла `_SUCCESS`:
```bash
! pip install --upgrade awscli awswrangler boto sklearn
! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*"
```
2. **Чтение данных из Amazon S3**: Используйте awswrangler для рекурсивного чтения всех CSV-файлов из префикса S3. Затем разделите данные на признаки и метки.
```python
import awswrangler as wr
df = wr.s3.read_csv(path=output_path, dataset=True)
X, y = df.iloc[:,:-1],df.iloc[:,-1]
```
3. **Создание DMatrices и выполнение кросс-валидации**: Создайте DMatrices (собственная структура данных для XGBoost) и используйте бинарную классификацию XGBoost для кросс-валидации.
```python
import xgboost as xgb
dmatrix = xgb.DMatrix(data=X, label=y)
params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
xgb.cv(
dtrain=dmatrix,
params=params,
nfold=3,
num_boost_round=50,
early_stopping_rounds=10,
metrics="rmse",
as_pandas=True,
seed=123)
```
“ Обновление и закрытие Data Wrangler
Чтобы обеспечить наличие последних функций и обновлений, рекомендуется регулярно обновлять приложение Data Wrangler Studio Classic. Для обновления обратитесь к документации по закрытию и обновлению приложений Studio Classic.
После завершения работы с Data Wrangler рекомендуется закрыть запущенные экземпляры, чтобы избежать дополнительных расходов. Обратитесь к документации по закрытию Data Wrangler для получения инструкций по завершению работы приложения и связанных с ним экземпляров.
Мы используем файлы cookie, необходимые для работы нашего сайта. Чтобы улучшить наш сайт, мы хотели бы использовать дополнительные файлы cookie, которые помогут нам понять, как посетители используют его, измерить трафик на наш сайт из социальных сетей и персонализировать ваш опыт. Некоторые из используемых нами файлов cookie предоставляются третьими сторонами. Чтобы принять все файлы cookie, нажмите 'Принять'. Чтобы отклонить все необязательные файлы cookie, нажмите 'Отклонить'.
Комментарий(0)