WS Data Pipeline 是一项 Web 服务,您可用于自动处理数据的移动和转换。使用 AWS Data Pipeline,您可以定义数据驱动的工作流,这样任务就可以依赖于前面任务的成功执行。您可以定义数据转换的参数,AWS Data Pipeline 将实施您设置的逻辑。
AWS Data Pipeline 的以下组件协同工作来管理您的数据:
-
管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅管道定义文件语法。
-
管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。
-
Task Runner 将轮询任务,然后执行这些任务。例如,Task Runner 可以将日志文件复制到 Amazon S3,然后启动 Amazon EMR 集群。Task Runner 已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行程序应用程序,也可以使用 AWS Data Pipeline 提供的 Task Runner 应用程序。有关更多信息,请参阅任务运行程序。
例如,您每天可使用 AWS Data Pipeline 将 Web 服务器的日志存档到 Amazon Simple Storage Service (Amazon S3),然后每周对这些日志运行 Amazon EMR (Amazon EMR) 集群以生成流量报告。AWS Data Pipeline 计划每日任务来复制数据,并计划每周任务来启动 Amazon EMR 集群。AWS Data Pipeline 还确保 Amazon EMR 在等待最后一天的数据上传到 Amazon S3 后,再开始其分析,即使存在不可预知的日志上传延迟。