• 生产中的ML-1:Amazon Sagemaker-AWS,设置,训练和部署


    作者|Roshini Johri
    编译|VK
    来源|Towards Data Science

    将大规模的机器学习系统投入生产,建立一个漂亮的流线化功能库,这已经成为我一个新痴迷的技术点。

    我最近开始了一系列关于学习和教学如何做到这一点的三部分教程,以实现不同的机器学习工作流程。本文假设了机器学习模型的基本知识,并重点介绍了如何在生产中建立工作流和部署。

    在本系列的第一部分中,我们将在Amazon Sagemaker上设置此功能。我们将使用sklearn的波士顿住房数据集。


    机器学习生命周期

    让我们花点时间来回顾一下机器学习的生命周期。简化的机器学习生命周期如下所示:

    现在,第一部分,数据准备,实际上应该是包括数据预处理和用于接下来步骤所需的特征工程。我将简要地概述这些步骤是什么样子。

    • 获取数据:这是一个从repo、etl等读取数据的过程,将数据移动到一个位置,以形成训练数据的原始版本。
    • 清理数据:这个阶段更多的是做一些基本的清理,比如类型转换、空处理、确保字符串/类别等是一致的
    • 准备/转换:特征转换、派生、高阶特征,如交互特征、进行一些编码等。

    下一阶段包括建模和评估阶段:

    • 训练模型:在这个阶段,你的数据应该以特征向量的形式出现,标签分为训练、验证和测试。在这个阶段,你将读取这些数据,在训练集上训练你的模型,在验证集上调参并在测试集上进行测试!这也是你保存模型以进行评估的阶段。
    • 评估模型:评估阶段,判断是否“我的模型做正确的事情”,是最重要的阶段之一,我觉得我们从来没有花足够的时间在这个阶段上。模型评估将帮助你了解模型性能。注意你的模型评估指标,并选择正确的指标。

    最后,也是我们阅读本文的真正原因,部署。

    • 部署到生产环境:这是准备将模型发布到公共的阶段。我们要注意概念漂移和模型衰减(由于底层分布的变化而导致性能的变化)
    • 监控/收集/评估数据:模型性能、输入/输出路径、错误度量、日志、模型组件等都将被时间戳标记和记录,应围绕模型选择建立度量监控和警报系统,以实现完美的管道!

    以上是一个简化但很漂亮的机器学习管道。现在让我们看看如何使用Amazon Sagemaker设置一个。


    Amazon Sagemaker

    现在,第一步从创建AWS帐户开始。如果你已经熟悉Amazon提供的实例(ec2实例)的类型,这会有所帮助。

    如果没有,可以查看这个链接:https://aws.amazon.com/sagemaker/pricing/instance-types/

    Sagemaker实例针对运行机器学习(ML)算法进行了优化。实例的类型还取决于区域和可用区域。

    如果你觉得过多地阅读有关实例类型的详细信息很无聊,那么就可以简化成以下选项:

    启动ML的好实例:ml.m4.xlarge (not free)

    启动DL的好实例:ml.p2.xlarge (not free)

    AWS Sagemaker EC2实例有与之关联的默认配额。你可能不总是得到20,这也会随着区域的不同而变化。

    根据用例的不同,你可能需要请求和增加。这可以通过创建一个带有AWS支持中心的案例来实现。请在这里查看更多信息:https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html

    Sagemaker Notebook实例

    现在要启动sagemaker Notebook实例,请转到aws帐户服务来搜索sagemaker。进入sagemaker页面后,单击创建notebook实例。如下所示:

    下一步是选择IAM角色。首先,尝试创建一个新角色,然后选择none作为s3bucket,除非有一个s3bucket要从中读取。另外,此时应该有一个可选的选择来选择git存储库。滚动到下方并单击“创建Notebook实例”。

    你可以看到正在创建的Notebook的状态,一旦准备就绪,你可以选择jupyter或jupyter lab。

    如果你需要克隆你的git存储库,打开终端从右边的jupyter面板,选择new,并执行以下操作:

    cd SageMaker
    
    git clone myFunSagemakerRepo
    

    这应该为你设置一个notebook实例和一个GitHub存储库。

    Sagemaker会议和角色

    我们将使用load_boston() 方法从sklearn获取数据集。然后,我们将这个数据集拆分为训练、验证和测试集。

    #加载数据
    boston_data = load_boston()
    
    #训练数据
    X_bos_pd = pd.DataFrame(boston_data.data, columns=boston_data.feature_names)
    
    #目标
    Y_bos_pd = pd.DataFrame(boston_data.target)
    
    #训练/测试分离
    X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X_bos_pd, Y_bos_pd, test_size=0.20)
    
    #训练验证分离
    X_train, X_val, Y_train, Y_val = sklearn.model_selection.train_test_split(X_train, Y_train, test_size=0.33)
    

    一旦训练、验证和测试数据集被创建,这些数据集需要上传到s3(简单存储服务)存储桶中,以便sagemaker容器在执行训练作业时可以访问它。

    最好使用前缀指定位置,最好是型号名称和版本,以确保路径干净。上传后,你可以从控制台转到s3服务并进行检查。

    prefix = 'boston-xgboost-example'
    
    test_location = session.upload_data(os.path.join(data_dir, 'test.csv'), key_prefix=prefix)
    val_location = session.upload_data(os.path.join(data_dir, 'validation.csv'), key_prefix=prefix)
    train_location = session.upload_data(os.path.join(data_dir, 'train.csv'), key_prefix=prefix)
    

    Sagemaker 训练

    在sagemaker中训练机器学习模型涉及到创建训练工作。我们将使用xgboost模型。请查看此处链接的文档,以确保你查看了sagemaker要求和语法:https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html

    要训练sagemaker模型,第一个任务是创建一个包含以下内容的训练工作:

    • S3训练/验证集的位置(注:这应该是csv文件)

    • 模型的计算资源(这与我们用于Notebook的资源不同)

    • 输出S3位置(模型)

    • 内置模型的Docker路径

    模型评估器

    • 为了训练一个模型,我们需要创建一个模型估计器。这将包含如何训练模型(配置)的信息。

    • 我们将使用名为get_image_uri的SageMaker实用程序方法来获取内置算法容器的路径

    • estimator初始化如下所示。我在这里用了一个付费的例子。

    container = get_image_uri(session.boto_region_name, 'xgboost')
    
    #xgboost estimator
    xgb_estimator = sagemaker.estimator.Estimator(
    container, 
    role,      
    train_instance_count=1,                                                                            train_instance_type='ml.m4.xlarge',                                                 output_path='s3://{}/{}/output'.format(session.default_bucket(), prefix),
    sagemaker_session=session
    )
    

    模型超参数

    xgb_estimator.set_hyperparameters(max_depth=5,
                            eta=0.2,
                            gamma=4,
                            min_child_weight=6,
                            subsample=0.8,
                            objective='reg:linear',
                            early_stopping_rounds=10,
                            num_round=200)
                            
    train_s3 = sagemaker.s3_input(s3_data=train_location, content_type='csv')
    validation_s3 = sagemaker.s3_input(s3_data=val_location, content_type='csv')
    
    xgb_estimator.fit({'train': train_s3, 'validation': validation_s3})
    

    模型评估

    • SageMaker使用transformer对象来评估模型。

    • 像estimator这样的transformer对象需要知道instance_count和instance_type以及它需要转换的测试数据的格式。为了让transformer以批处理方式评估测试数据,我们需要让它知道拆分类型是什么,以便将文件分成块。

    xgb_transformer = xgb_estimator.transformer(instance_count = 1, instance_type = 'ml.m4.xlarge')
    
    xgb_transformer.transform(test_location, content_type='text/csv', split_type='Line')
    
    xgb_transformer.wait()
    

    现在,为了把数据从s3移回Notebook进行分析,我们把数据复制一遍

    !aws s3 cp --recursive $xgb_transformer.output_path $data_dir
    

    现在我们来评估!

    Y_pred = pd.read_csv(os.path.join(data_dir, 'test.csv.out'), header=None)
    

    模型部署

    通过高级api进行模型部署非常简单。我将展示一个示例,演示如何部署我们刚刚训练过的上述模型。

    #调用deploy方法启动端点实例
    
    xgb_predictor = xgb_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge')
    
    xgb_predictor.content_type = 'text/csv'
    xgb_predictor.serializer = csv_serializer
    
    Y_pred = xgb_predictor.predict(X_test.values).decode('utf-8')
    
    #做完后别忘了关机/清理!
    
    • 与我们如何使用transformer对象进行评估类似,我们可以对部署的模型执行相同的操作。我们可以在不同的概念漂移(可能导致模型衰退的数据的底层分布的变化)运行后的比较这些结果。

    • 根据测试集的大小,我们可以决定是一次性发送数据还是分块发送数据。

    • Xgb predictor需要知道文件的格式以及要使用的序列化器的类型。

    这是一个非常简单的方法,可以尝试在AWS Sagemaker上设置第一个ml工作流。我建议你先从简单的开始,然后再转向复杂的。我们将在后面的文章中讨论较低级别的api,并真正深入到细节中。但是为了获得基本的理解,请尝试使用一些简单的数据集进行设置,并使用可用的不同模型。

    清理

    记得:

    • 删除终端和终端配置
    • 删除模型
    • 删除s3存储桶
    • 停止未使用的Notebook实例

    SageMaker文档:

    开发人员文档可在此处找到:https://docs.aws.amazon.com/sagemaker/latest/dg/

    Python SDK文档(也称为高级方法)可在以下位置找到:https://sagemaker.readthedocs.io/en/latest/

    在github上可以找到Python SDK代码:https://github.com/aws/sagemaker-python-sdk

    原文链接:https://towardsdatascience.com/ml-in-production-1-amazon-sagemaker-aws-setup-train-and-deploy-896086848cde

    欢迎关注磐创AI博客站:
    http://panchuang.net/

    sklearn机器学习中文官方文档:
    http://sklearn123.com/

    欢迎关注磐创博客资源汇总站:
    http://docs.panchuang.net/

  • 相关阅读:
    解决:Cuda安装后找不到安装文件目录
    学习论文:Eyeriss v1
    AOD-NET除雾算法
    学习论文AOD-Net:All-in-One Dehazing Network
    学习ResNeXt
    CentOS-7.6-ARM 离线安装部署FastDFS
    CentOS ARM离线安装部署Mysql5.6.44
    NFS+SnapShot快照式备份迁移ES索引过程
    《无限可能:快速唤醒你的学习脑》
    Oracle用sqlplus无法登陆?
  • 原文地址:https://www.cnblogs.com/panchuangai/p/13598672.html
Copyright © 2020-2023  润新知