简介:北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。
随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术手段,以高性能计算服务为核心的高性能计算云(HPC Cloud)受到业界的广泛关注。
为了进一步凝聚产业共识,推进高性能计算云产业发展,2021年12月21日,计算网融合产业及标准推进委员会联合超级计算创新联盟,召开首届高性能计算云(HPC Cloud)产业发展论坛,邀请了学术界与产业界专家,以 “云化超算,智启未来”为主题,从技术研究、应用部署、实践发展等多个方面进行精彩演讲。
01 阿里云高性能计算的发展
超算通过互联网的方式去部署和交付已经成为趋势。何万青表示阿里云的高性能计算已经发展了四到五年,目前部署在很多工业和行业计算的相关垂直业务,比如汽车仿真、影视后期渲染、AI生物制药、气象业务等领域。
基于过去十多年在线下HPC的技术观察,谈到传统超算系统转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service顶峰。在北坡,云公司借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的快速组合及SaaS服务,超越以提供“核时”和“算力”为核心的模式,强调整体科研业务上云。
02 阿里云高性能计算Cloud Stack
何万青表示,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁移等功可以从底层对客户透明实现。在ISV层,服务是通过工作流的方式提供,数据搬移不仅是物理方式,而是通过高速网络,一次性的上载来完成任务交付。在跨数据中心的计算集群上,完成三网合一,现有调度器完全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,全球只有阿里云能够在运行过程中实现队列绑定不同的实例。
03阿里云高性能计算应用方案
本文为阿里云原创内容,未经允许不得转载。