摘要:2022 年 7 月 25 日,云上自动化运维 CloudOps 系列沙龙_第二弹正式开启!阿里云弹性计算技术专家林小平带来的主题分享是《如何实现应用的持续发布》,以下是她的演讲内容整理,本篇内容主要分为四个部分:
1. 持续发布总结
2. 持续发布建设路径
3. 云上持续发布实践
4. 应用持续发布
01 持续发布总结
在发布过程中,大家经常会遇到很多问题:
1. 在手工部署时,由于发布时间过长,会频繁出错,需要手工修正发布问题;
2. 当环境脱钩时,由于各环境差异较大,没有类生产环境,导致环境问题凸显。由于环境的不稳定,在第一次部署时,无法判断线上的情况;
3. 在集群发布时,由于各个环境的配置不同,需要手工修改。此时配置节点的情况几乎是不可控的。如果直接修改生产环境配置,其风险相对较大;
4. 当发布时出现多个开发协作,频繁更新,会出现互相阻塞的情况。此时,运维、开发、测试的协作成本非常高。
希望在持续发布的过程中,可以实现多人开发,简单部署,环境稳定,持续自动化验证,功能快速迭代,支持设置发布模式,保障功能稳定。当发布时出现问题,能够快速回滚到稳定版本,并快速反馈问题。
度量往往会直接影响团队行为。如果选择代码行数,作为开发人员的指标,开发人员为了业绩,不会将代码写的很精简。这种现象被称为霍桑效应。
在交付的过程中,可以选择周期时间作为度量。周期时间是指从开始开发,到最后交付的时间。
比如在资源准备时,从环境资源开始准备,到环境完全可用的时间段,就是资源准备的周期时间。如今在云上,大家申请预算之后,可以在线上直接购买,大幅缩短了资源采购周期。
发布效能,是从功能开发验证,准备发布到交付客户的时间段。包括发布的准备时间,发布环境的配置时间,灰度时间,发布反馈问题的速度等等。
02 持续发布建设路径
为了缩短周期时间,需要实现全流程的自动化。从构建、部署、测试、发布等各个环节,将环境,软件包,网络配置、基础设施、外部服务等功能,全部纳入版本管理。
在发布应用时,需要准备软件所需要运行环境,配置所需的基础设施,外部服务依赖等。将软件运行至安装环境,同时配置所需的数据和状态,就能完成软件交付。
在版本管理方面,包括需求文档、测试脚本、自动化用例、网络配置、数据库的创建、升级、初始化、回滚等等,都需要进行版本管理。
除此之外,团队需要达成共识。在持续发布的过程中,团队要遵循发布规范,持续改进整个流程,确保风险可控。
03 云上持续发布实践
接下来,讲一讲持续发布的相关步骤。在环境准备方面,进行模版输入,使用已有模版或自定义模版描述云上环境。任何输入参数,执行自动化部署。最后,查看各资源部署完成情况,并进行后续管理。
该资源准备过程,适用企业快速上云,按需批量部署,应用需要资源快速复制,使用已有资源快速构建应用。
在持续构建方面,需要把提供服务的代码包,打包上传到 OSS。用户通过输入相关的环境参数,拉取对应的软件包。然后,通过运维编排,拉取对应包信息到 ECS 上。云助手通过执行对应的部署脚本,启动应用,对外提供服务。
当业务不断扩展,机器无法支撑服务时,可以通过弹性伸缩,快速提供机器的扩缩容,从而实现自动化部署。
在持续发布方面,主要基于弹性伸缩的滚动升级。首先,关闭扩缩容活动,然后对实例进行分组,让实例进入备用状态。对应的实例在发布的过程中,不会对外提供服务。完成发布后,实例退出备用模式,对外提供服务。
滚动升级适合金丝雀发布、蓝绿发布、分批发布等能力。在运维编排中创建软件包,已创建伸缩组并添加 ECS 实例,执行滚动升级任务即可。
04 应用持续发布
接下来,讲一讲在持续发布过程中的发布原则。应用发布是一个低风险、频繁、低成本、迅速且是可预见的过程。
在这个过程中,需要做到脚本化、版本化、可重放、可反馈。在自动化方面,要实现自动化部署、自动化测试和自动化反馈。
在管理方面,要完善版本管理、依赖管理、环境管理以及配置管理。实现快速回滚、快速重复发布、可追溯。当出现问题时,能够持续改进,频繁迭代,快速反馈,缩短生产周期。
提高生命周期交付的可追溯性和可观测性,能够让发布变得更有效。
如上图所示,持续发布的相关服务,主要包括上云、环境准备、代码构建、自动部署、持续发布。
在环境准备方面,可以通过 ros、terraform、ecs、acs、oss 等云资源产品,进行准备。在代码构建时,可以通过 acms、erdc 云效,进行应用配置管理。
在自动部署方面,可以通过 edas 或者 OSS,进行部署构建。在持续发布方面,可以通过 rdc 云效自定义部署流水线,通过 autoscaling 进行持续发布。
Q&A 环节,用户问答
Q1 霍桑效应是由于,研究对象意识到自己正在被研究,而带来人为效应。请问在云上自动化以后,能不能完全的避免这种情况?
答:需要要判断在持续发布时,哪种度量方式比较好。假设度量指标是一个错误指标,霍桑效应会导致结果出现偏差。如果度量指标是可信的,霍桑效应会让指标变得越来越好。
Q2 由于流水线部署涉及到的资源相关、数据相关、控制相关等关联问题。如何高效解决,可能遇到的问题?
答:流水线部署一般在应用里部署。在设置应用时,需要设置资源数据权限。除此之外,还可以利用云上的访问控制能力进行加强。