Amazon SageMaker Data Wrangler 是 Amazon SageMaker Studio Classic 中的一个强大工具,旨在简化机器学习 (ML) 项目的数据准备过程。它提供了一个用户友好、可视化的界面,使数据科学家和 ML 工程师能够高效地导入、分析、转换和导出数据。通过使用 Data Wrangler,用户可以显著减少准备数据所需的时间和精力,从而将更多精力集中在模型开发和部署上。本综合指南将引导您了解 Data Wrangler 的各个方面,从设置到利用其高级功能进行数据操作和模型训练。
“ 使用 Data Wrangler 的先决条件
在开始使用 Amazon SageMaker Data Wrangler 之前,您需要确保已满足必要的先决条件。这包括访问 Amazon EC2 实例、配置必要的安全和权限,以及拥有一个活动的 Studio Classic 实例。
1. **Amazon EC2 实例**:您需要访问 Amazon Elastic Compute Cloud (Amazon EC2) 实例。有关可用实例类型以及如何在需要时请求增加配额的更多信息,请参阅 AWS 文档。
2. **安全和权限**:按照安全和权限文档中的说明配置必要的权限。这可确保您拥有使用 Data Wrangler 和相关 AWS 服务所需的适当访问权限。
3. **防火墙访问**:如果您的组织使用阻止互联网流量的防火墙,请确保您能够访问以下 URL:
* `https://ui.prod-1.data-wrangler.sagemaker.aws/`
* `https://ui.prod-2.data-wrangler.sagemaker.aws/`
* `https://ui.prod-3.data-wrangler.sagemaker.aws/`
* `https://ui.prod-4.data-wrangler.sagemaker.aws/`
4. **活动的 Studio Classic 实例**:您需要一个活动的 Studio Classic 实例。如果您还没有,请按照 Amazon SageMaker AI Domain Overview 中的说明启动新实例。请确保 KernelGateway 应用程序处于“就绪”状态后再继续。
“ 在 SageMaker Studio Classic 中访问 Data Wrangler
完成先决条件后,您可以通过以下步骤在 SageMaker Studio Classic 中访问 Data Wrangler:
1. **登录 Studio Classic**:使用您的凭据登录 SageMaker Studio Classic。有关更多信息,请参阅 Amazon SageMaker AI Domain Overview。
2. **选择 Studio**:导航到 Studio 界面。
3. **启动应用程序**:从应用程序下拉列表中选择“Studio”。
4. **转到主页**:选择主页图标以访问主仪表板。
5. **选择数据**:点击“数据”选项。
6. **选择 Data Wrangler**:选择“Data Wrangler”以启动应用程序。
或者,您可以通过以下方式创建新的 Data Wrangler 流:
1. **选择文件**:在顶部导航栏中,选择“文件”。
2. **选择新建**:选择“新建”。
3. **选择 Data Wrangler Flow**:选择“Data Wrangler Flow”。
您还可以根据需要重命名新目录和 `.flow` 文件。请注意,Data Wrangler 的初始加载可能需要几分钟时间,并且在 KernelGateway 应用程序就绪之前可能会出现一个轮播图。
“ 探索 Data Wrangler 功能:泰坦尼克号数据集演练
为了帮助您了解如何使用 Data Wrangler,本节将通过泰坦尼克号数据集进行演练。该数据集包含有关泰坦尼克号乘客的信息,包括他们的生存状态、年龄、性别和舱位等级。通过遵循本演练,您将学习如何使用 Data Wrangler 导入、分析、转换和导出数据。
**演练步骤:**
1. **打开 Data Wrangler Flow**:打开一个新的 Data Wrangler 流,并选择使用示例数据集,或将泰坦尼克号数据集上传到 Amazon S3 并导入到 Data Wrangler 中。
2. **分析数据集**:使用 Data Wrangler 的分析工具探索数据集并获得见解。
3. **定义数据流**:使用 Data Wrangler 的数据转换功能定义数据流。
4. **导出流**:将您的流导出到 Jupyter notebook,以创建 Data Wrangler 作业。
5. **处理数据**:处理您的数据并启动 SageMaker 训练作业,以训练 XGBoost 二分类器。
为确保您拥有最新的功能和更新,建议定期更新 Data Wrangler Studio Classic 应用程序。要更新,请参阅有关关闭和更新 Studio Classic 应用程序的文档。
完成使用 Data Wrangler 后,建议关闭正在运行的实例以避免产生额外费用。有关如何关闭应用程序和相关实例的说明,请参阅有关关闭 Data Wrangler 的文档。
我们使用对我们网站运行至关重要的 cookies。为了改进我们的网站,我们希望使用额外的 cookies 来帮助我们了解访问者如何使用它,衡量来自社交媒体平台的流量,并个性化您的体验。其中一些 cookies 由第三方提供。点击"接受"以接受所有 cookies,或点击"拒绝"以拒绝所有可选 cookies。
评论(0)