Логотип AiToolGo

Amazon SageMaker Data Wrangler: Упрощение подготовки данных для машинного обучения

Углубленное обсуждение
Технический, легко понятный
 0
 0
 1
Эта статья представляет собой подробное руководство по доступу и использованию Amazon SageMaker Data Wrangler, охватывающее предварительные условия, подготовку данных и обучение моделей с использованием набора данных Titanic. Она включает пошаговые инструкции по импорту данных, применению преобразований и экспорту потоков данных.
  • основные моменты
  • уникальные идеи
  • практическое применение
  • ключевые темы
  • ключевые выводы
  • результаты обучения
  • основные моменты

    • 1
      Подробные пошаговые инструкции по использованию Data Wrangler
    • 2
      Практические примеры с использованием набора данных Titanic
    • 3
      Комплексное освещение подготовки данных и обучения моделей
  • уникальные идеи

    • 1
      Интеграция Data Wrangler с Amazon S3 для импорта данных
    • 2
      Использование встроенных преобразований и пользовательского кода Python для очистки данных
  • практическое применение

    • Статья предоставляет практические рекомендации для пользователей по эффективной подготовке данных для машинного обучения, что делает ее ценной как для начинающих, так и для опытных пользователей.
  • ключевые темы

    • 1
      Подготовка данных с помощью Data Wrangler
    • 2
      Обучение моделей с помощью XGBoost
    • 3
      Интеграция с Amazon S3
  • ключевые выводы

    • 1
      Практический учебник с реальным набором данных
    • 2
      Четкие инструкции как для новичков, так и для продвинутых пользователей
    • 3
      Фокус на практическом применении инструментов подготовки данных
  • результаты обучения

    • 1
      Понимание того, как получить доступ и использовать Amazon SageMaker Data Wrangler
    • 2
      Способность подготавливать данные для моделей машинного обучения
    • 3
      Знание интеграции Data Wrangler с сервисами AWS
примеры
учебные пособия
примеры кода
визуальные материалы
основы
продвинутый контент
практические советы
лучшие практики

Содержание

Введение в Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler — это мощный инструмент в составе Amazon SageMaker Studio Classic, предназначенный для оптимизации и упрощения процесса подготовки данных для проектов машинного обучения (ML). Он предоставляет удобный визуальный интерфейс, который позволяет специалистам по данным и ML-инженерам эффективно импортировать, анализировать, преобразовывать и экспортировать данные. Используя Data Wrangler, пользователи могут значительно сократить время и усилия, затрачиваемые на подготовку данных, что позволяет им больше сосредоточиться на разработке и развертывании моделей. Это подробное руководство проведет вас через основные аспекты Data Wrangler, от его настройки до использования расширенных функций для манипулирования данными и обучения моделей.

Предварительные условия для использования Data Wrangler

Прежде чем начать использовать Amazon SageMaker Data Wrangler, убедитесь, что вы выполнили необходимые предварительные условия. К ним относятся доступ к экземпляру Amazon EC2, настройка необходимых разрешений и прав доступа, а также наличие активного экземпляра Studio Classic. 1. **Экземпляр Amazon EC2**: Вам нужен доступ к экземпляру Amazon Elastic Compute Cloud (Amazon EC2). Обратитесь к документации AWS для получения дополнительной информации о доступных типах экземпляров и о том, как запросить увеличение квот при необходимости. 2. **Безопасность и разрешения**: Настройте необходимые разрешения, как описано в документации по безопасности и разрешениям. Это гарантирует, что у вас есть соответствующие права доступа для использования Data Wrangler и связанных с ним сервисов AWS. 3. **Доступ к брандмауэру**: Если ваша организация использует брандмауэр, блокирующий интернет-трафик, убедитесь, что у вас есть доступ к следующим URL-адресам: * `https://ui.prod-1.data-wrangler.sagemaker.aws/` * `https://ui.prod-2.data-wrangler.sagemaker.aws/` * `https://ui.prod-3.data-wrangler.sagemaker.aws/` * `https://ui.prod-4.data-wrangler.sagemaker.aws/` 4. **Активный экземпляр Studio Classic**: Вам нужен активный экземпляр Studio Classic. Следуйте инструкциям в обзоре домена Amazon SageMaker AI, чтобы запустить новый экземпляр, если у вас его еще нет. Убедитесь, что приложение KernelGateway находится в состоянии «Готово» перед продолжением.

Доступ к Data Wrangler в SageMaker Studio Classic

После выполнения предварительных условий вы можете получить доступ к Data Wrangler в SageMaker Studio Classic, выполнив следующие шаги: 1. **Войдите в Studio Classic**: Используйте свои учетные данные для входа в SageMaker Studio Classic. Обратитесь к обзору домена Amazon SageMaker AI для получения дополнительной информации. 2. **Выберите Studio**: Перейдите в интерфейс Studio. 3. **Запустите приложение**: Выберите «Studio» из выпадающего списка приложений. 4. **Перейдите на главную**: Выберите значок дома, чтобы получить доступ к главной панели управления. 5. **Выберите Данные**: Нажмите на опцию «Данные». 6. **Выберите Data Wrangler**: Выберите «Data Wrangler», чтобы запустить приложение. В качестве альтернативы вы можете создать новый поток Data Wrangler, выполнив следующие действия: 1. **Выберите Файл**: В верхней строке меню выберите «Файл». 2. **Выберите Создать**: Выберите «Создать». 3. **Выберите Поток Data Wrangler**: Выберите «Поток Data Wrangler». Вы также можете переименовать новую директорию и файл `.flow` по мере необходимости. Обратите внимание, что первоначальная загрузка Data Wrangler может занять несколько минут, и может появиться карусель, пока приложение KernelGateway не будет готово.

Изучение функций Data Wrangler: руководство по набору данных Titanic

Чтобы помочь вам понять, как использовать Data Wrangler, этот раздел представляет собой пошаговое руководство с использованием набора данных Titanic. Этот набор данных содержит информацию о пассажирах Titanic, включая их статус выживания, возраст, пол и класс. Следуя этому руководству, вы научитесь импортировать, анализировать, преобразовывать и экспортировать данные с помощью Data Wrangler. **Шаги в руководстве:** 1. **Откройте поток Data Wrangler**: Откройте новый поток Data Wrangler и выберите использование примера набора данных или загрузите набор данных Titanic в Amazon S3 и импортируйте его в Data Wrangler. 2. **Проанализируйте набор данных**: Используйте инструменты анализа Data Wrangler для изучения набора данных и получения информации. 3. **Определите поток данных**: Используйте функции преобразования данных Data Wrangler для определения потока данных. 4. **Экспортируйте поток**: Экспортируйте ваш поток в Jupyter notebook, чтобы создать задание Data Wrangler. 5. **Обработайте данные**: Обработайте ваши данные и запустите задание обучения SageMaker для обучения бинарного классификатора XGBoost.

Импорт и подготовка данных с помощью Data Wrangler

Вы можете импортировать набор данных Titanic в Data Wrangler одним из следующих способов: 1. **Импорт непосредственно из потока Data Wrangler**: Откройте поток и выберите «Использовать пример набора данных». 2. **Загрузка в Amazon S3**: Загрузите набор данных в бакет Amazon S3, а затем импортируйте его в Data Wrangler. Чтобы загрузить набор данных в Amazon S3: 1. **Загрузите набор данных Titanic**: Загрузите набор данных Titanic. 2. **Загрузите в S3**: Загрузите набор данных в бакет Amazon S3 в регионе AWS, который вы намерены использовать для этой демонстрации. Вы можете использовать консоль Amazon S3 для перетаскивания файла. После успешной загрузки набора данных в Amazon S3 вы можете импортировать его в Data Wrangler: 1. **Выберите Импорт данных**: На вкладке потока данных выберите кнопку «Импорт данных» или вкладку «Импорт». 2. **Выберите Amazon S3**: Выберите «Amazon S3». 3. **Найдите набор данных**: Используйте таблицу импорта набора данных, чтобы найти бакет, в который вы добавили набор данных Titanic. Выберите CSV-файл, чтобы открыть панель сведений. 4. **Настройте сведения**: Убедитесь, что тип файла — CSV, и установите флажок, указывающий, что первая строка является заголовком. Вы также можете дать набору данных понятное имя, например «Titanic-train». 5. **Импорт**: Выберите кнопку «Импорт». После импорта набора данных он появится на вкладке потока данных. Дважды щелкните узел, чтобы войти в представление сведений узла, где вы можете добавлять преобразования или анализы.

Анализ и визуализация данных

Data Wrangler предоставляет встроенные возможности преобразования и визуализации для анализа, очистки и преобразования ваших данных. Правая панель в представлении сведений узла перечисляет все встроенные преобразования и раздел для добавления пользовательских преобразований. **Создание отчета о качестве и аналитике данных** Чтобы получить представление о ваших данных, создайте отчет о качестве и аналитике данных. Этот отчет поможет вам выявить проблемы, такие как пропущенные значения и выбросы. Он также предупредит вас о потенциальных проблемах, таких как утечка целевой переменной или несбалансированность. **Создание сводки таблицы** 1. **Добавить анализ**: Выберите «+» рядом с шагом типа данных в потоке данных и выберите «Добавить анализ». 2. **Выберите сводку таблицы**: В области анализа выберите «Сводка таблицы» из выпадающего списка. 3. **Назовите сводку**: Дайте сводке таблицы имя. 4. **Предварительный просмотр**: Выберите «Предварительный просмотр», чтобы увидеть предварительный просмотр таблицы. 5. **Сохранить**: Выберите «Сохранить», чтобы добавить ее в ваш поток данных. Данные будут отображаться в разделе «Все анализы». Из предоставленной статистики вы можете сделать выводы, такие как средняя стоимость проезда и наличие пропущенных значений в таких столбцах, как «cabin», «embarked» и «age».

Преобразование данных с помощью Data Wrangler

После анализа данных вы можете очистить и подготовить их для обучения, добавив преобразования в поток данных. Вот некоторые распространенные преобразования, которые вы можете выполнить: **Удаление неиспользуемых столбцов** 1. **Добавить преобразование**: Выберите «+» рядом с шагом типа данных в потоке данных и выберите «Добавить преобразование». 2. **Выберите Управление столбцами**: В столбце «Все шаги» выберите «Добавить шаг», а затем выберите «Управление столбцами» из списка стандартных преобразований. Убедитесь, что выбрано «Удалить столбец». 3. **Выберите столбцы для удаления**: Выберите столбцы, которые вы не хотите использовать для обучения, такие как «cabin», «ticket», «name», «sibsp», «parch», «home.dest», «boat» и «body». 4. **Предварительный просмотр и добавление**: Выберите «Предварительный просмотр», чтобы убедиться, что столбцы удалены, затем выберите «Добавить». **Очистка пропущенных значений** 1. **Выберите Обработка пропущенных значений**: Выберите «Обработка пропущенных значений». 2. **Выберите Удалить пропущенные значения**: Выберите «Удалить пропущенные значения» для преобразователя. 3. **Выберите входной столбец**: Выберите столбец с пропущенными значениями, например «age». 4. **Предварительный просмотр и добавление**: Выберите «Предварительный просмотр», чтобы увидеть новый фрейм данных, затем выберите «Добавить», чтобы добавить преобразование в ваш поток. **Пользовательские преобразования с помощью Pandas** Вы также можете использовать пользовательские преобразования с помощью Pandas для выполнения более сложных манипуляций с данными. Например, вы можете использовать one-hot encoding для категориальных данных: ```python import pandas as pd dummies = [] cols = ['pclass','sex','embarked'] for col in cols: dummies.append(pd.get_dummies(df[col])) encoded = pd.concat(dummies, axis=1) df = pd.concat((df, encoded),axis=1) ``` **Пользовательские преобразования с помощью SQL** Вы можете использовать SQL для выбора определенных столбцов для дальнейшего анализа: ```sql SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df; ```

Экспорт потоков данных и интеграция с SageMaker

После создания потока данных вы можете экспортировать его для дальнейшего использования. Один из распространенных вариантов — экспорт в блокнот задания Data Wrangler. Этот процесс автоматически создает Jupyter notebook, который настроен для запуска задания обработки SageMaker для выполнения вашего потока данных Data Wrangler. **Экспорт в блокнот задания Data Wrangler** 1. **Сохраните поток данных**: Выберите «Файл», а затем «Сохранить поток Data Wrangler». 2. **Вернитесь на вкладку потока данных**: Вернитесь на вкладку потока данных и выберите последний шаг в вашем потоке данных. 3. **Выберите Экспорт**: Выберите «Экспорт», а затем «Amazon S3 (через Jupyter Notebook)». Это откроет Jupyter notebook. 4. **Выберите ядро**: Выберите любое ядро Python 3 (Data Science). 5. **Запустите блокнот**: Запустите ячейки в блокноте, пока не дойдете до раздела «Запуск задания обучения SageMaker (необязательно)». Вы можете отслеживать статус вашего задания Data Wrangler на вкладке «Обработка» в консоли SageMaker AI. Вы также можете использовать Amazon CloudWatch для мониторинга вашего задания Data Wrangler.

Обучение классификатора XGBoost на подготовленных данных

После подготовки данных с помощью Data Wrangler вы можете обучить бинарный классификатор XGBoost, используя либо Jupyter notebook, либо Amazon Autopilot. Autopilot может автоматически обучать и оптимизировать модели на основе данных, преобразованных непосредственно из вашего потока Data Wrangler. **Обучение с помощью Jupyter Notebook** В том же блокноте, где вы запустили задание Data Wrangler, вы можете извлечь подготовленные данные и обучить бинарный классификатор XGBoost с минимальной дополнительной подготовкой данных. 1. **Обновите необходимые модули**: Используйте pip для обновления необходимых модулей и удаления файла `_SUCCESS`: ```bash ! pip install --upgrade awscli awswrangler boto sklearn ! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*" ``` 2. **Чтение данных из Amazon S3**: Используйте awswrangler для рекурсивного чтения всех CSV-файлов из префикса S3. Затем разделите данные на признаки и метки. ```python import awswrangler as wr df = wr.s3.read_csv(path=output_path, dataset=True) X, y = df.iloc[:,:-1],df.iloc[:,-1] ``` 3. **Создание DMatrices и выполнение кросс-валидации**: Создайте DMatrices (собственная структура данных для XGBoost) и используйте бинарную классификацию XGBoost для кросс-валидации. ```python import xgboost as xgb dmatrix = xgb.DMatrix(data=X, label=y) params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10} xgb.cv( dtrain=dmatrix, params=params, nfold=3, num_boost_round=50, early_stopping_rounds=10, metrics="rmse", as_pandas=True, seed=123) ```

Обновление и закрытие Data Wrangler

Чтобы обеспечить наличие последних функций и обновлений, рекомендуется регулярно обновлять приложение Data Wrangler Studio Classic. Для обновления обратитесь к документации по закрытию и обновлению приложений Studio Classic. После завершения работы с Data Wrangler рекомендуется закрыть запущенные экземпляры, чтобы избежать дополнительных расходов. Обратитесь к документации по закрытию Data Wrangler для получения инструкций по завершению работы приложения и связанных с ним экземпляров.

 Оригинальная ссылка: https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-wrangler-getting-started.html

Комментарий(0)

user's avatar

      Похожие учебные материалы

      Связанные инструменты