背景
近年来,国家对算力的重视程度不断提升。在算力基础设施方面,先后发布《全国数据中心应用发展指引》、《关于加快构建全国一体化大数据中心协同创新体系的指导意见》等;在算力服务方面,发布了《推动企业上云实施指南》、《云计算发展三年行动计划》等。
虽然国家对算力的不断重视使得算力发展进入快车道,但是在社会应用层面依然各式各样的问题亟待技术界、产业界一一解决。例如,在支持 AI 技术的应用方面,GPU 是其中一个关键要素。GPU 擅长更高效地处理大量并行的数据和任务,经常与 CPU 搭配使用,以发挥各自的长处。
然而近些年,全球众多企业用户却陷入了买不到或买不起的“芯片危机“,以及算力需求不断增长的矛盾之中。因此,企业在面对业务对算力不断高速增长的需求和有限的资源之间的矛盾时,如何高效地发挥 IT 设施的算力能力、如何高效地调度算力资源提高使用效率成为了 CIO 必须解决的问题。
得益于近些年同样发展得如火如荼的云原生技术,尤其是作为云原生技术底座的容器云技术的高速发展和产业化落地,业界发现,将 GPU 等算力资源容器化、资源池化,可以使算力的管理能力拓展到整个数据中心。这个解决方案将 AI 应用和 GPU 服务器硬件解耦,实现虚拟 GPU 资源的动态伸缩和灵活调度,给对 AI、大数据、高性能等计算服务有显著需求的企业解了燃眉之急。
博云作为国内容器云市场占有率排名前五的唯一创业型厂商,在容器云领域拥有多年的深耕和积累。博云容器云产品在 AI 应用支撑、高性能计算方面也做了专门布局。
例如,在为国内某高精尖领域顶级研究机构建设的容器云平台中,其 AI 应用支撑模块仅仅在上线初期就实现了资源利用率提升 30%以上,作业调度能力提升 60 倍的效能提升,随着建设的不断深入,效能还在不断提升。
近日,博云联合在 AI 算力资源池化领域的领先者趋动科技,共同验证了趋动科技优秀的 AI 算力资源池解决方案“OrionX AI 算力资源池化软件”与博云的容器云平台“BeyondContainer”的兼容性、可靠性、稳定性及运行性能。
-
资源按需分配功能:验证 OrionX 可根据用户实际应用需求按百分比分配 AI 加速卡算力,按 MB 为单位分配 AI 加速卡显存。
-
资源远程调用功能:验证 OrionX client 容器可在没有配置 AI 加速卡的服务器上运行,并通过 OrionX 使用远端服务器上的 AI 加速卡资源。
-
多用户 AI 加速卡资源切分功能:验证多个 OrionX client 容器可对同一 AI 加速卡服务器上的 AI 加速卡资源进行切分,同时进行训练或推理任务。
-
资源聚合功能:验证 OrionX 在用户进行单机多卡模型训练时,可将本地和远端的 AI 加速卡资源进行自动汇聚以满足训练任务对 AI 加速卡资源的需求。
-
资源动态分配功能:验证 OrionX 支持资源共享功能,当启动 OrionX Client Runtime 对应的 Pod 时,OrionX Controller 不会马上将申请的 OrionX vGPU 资源分配给该 Pod,在 Pod 运行期间,只有 AI 应用在调用 的时候,该部分 资源才会被该 Pod 占用,AI 任务结束停止时,资源即被释放。
双方通过对组件兼容、测试模型和数据集、单机单卡、资源切分、资源聚合、资源排队、资源超分、远程调用、资源动态、算力控制等十个功能测试,验证了 OrionX 在博云容器云平台上的运行情况。测试结果表明双方产品完全兼容,各项功能运行正常,性能表现优异,通过 OrionX 按需调用、远程调用、资源聚合等能力的赋能,博云容器云平台拥有了对 AI 算力资源进行细粒度管理和监控的能力,可在大数据、云计算、人工智能等应用场景中为客户提供可靠、稳定、高效运行的 AI 算力。
“数字化、网络化、智能化“已成为 AI 行业应用的基本特征,并在一步步促进行业应用向多样化与多元化方向发展。在智能化时代,“强大的算力”将成为驱动技术创新与行业高质量发展的重要引擎。
云原生是解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段,以降低企业投入成本,提高计算资源使用效率为目标的高性能云计算,将成为数字变革的赋能底座,满足千行百业数字化转型对算力的差异化、定制化需求。
博云与趋动科技在基于容器实现 GPU 资源池化管理方面的结合,将为企业级客户的数字业务发展提供强大的助力!
博云公司介绍
江苏博云科技股份有限公司(博云)是国内云原生领域的创新领导者,国家高新技术企业,江苏省专精特新小巨人企业。自 2012 年成立以来,专注为客户提供自主可控的国产软件基础设施产品和技术服务,帮助客户构建面向云原生应用的新型 IT 基础架构,快速实现 IT 架构革新,以应对新一代信息技术下实现数字化转型的迫切需求。
博云旗下拥有容器云产品族、DevOps 开发运维一体化平台和云管理平台三大核心产品线。在云原生领域,博云容器云产品族提供以应用为中心,以容器云为底座,面向多种应用类型的云原生操作系统,助力企业提升应用交付效率,增强应用稳定性,实现简化管理,降本增效。博云 DevOps 平台为客户提供企业级“全科技业务域管理”的整体规划、产品交付与解决方案实施。在多云管理领域,博云一体化云管理平台提供“云纳管+云服务+云运营+云运维”四位一体的中立云管理服务,实现对多云环境的一体化管理、统一云服务提供和精细化运营,帮助企业高效管理和使用云资源。
博云容器云平台被 Gartner 评为中国 CaaS 领域代表厂商,市场占有率位列全国前五(IDC 容器软件市场报告);博云云管理平台被 Forrester 列入中国混合云管理软件市场领导者象限。博云 DevOps 平台首批获得中国信通院应用开发域的最高级别的先进级认证。博云产品推出以来,广泛成熟应用于金融、制造、能源、政务、电信、医疗等不同领域,支撑了 400+ 家大型企业客户的生产系统稳定高效运行,为客户的数字化转型保驾护航。
趋动科技公司介绍
北京趋动科技有限公司于 2019 年成立于北京中关村高新技术园区,拥有专业的研发、运营和服务团队,被评为 WISE2020「新基建创业榜」最具成长性创业公司 TOP20、「REAL 100 创新家」、「2021 创业邦 100 未来独角兽」等。趋动科技专注于为企业用户构建数据中心级 AI 算力资源池和 AI 开发平台,趋动科技的 OrionX 猎户座 AI 算力资源池化软件能够帮助用户提高资源利用率和降低 TCO,提高算法工程师的工作效率。趋动科技的双子座 GEMINI AI 训练平台,为客户提供强大的 AI 算力管理服务以及高效的算法开发和训练支持,能够化繁为简,帮助企业建好 AI 平台、管好 GPU、用好 AI 服务。
凭借标准化、可复制的产品架构,趋动科技得到了包括互联网、金融、电信运营商、科研机构和高校等大量行业头部客户的认可。资本市场对于趋动科技的发展充满信心——趋动科技成立两年多已经完成近亿美元的融资,顶级的投资机构持续支持趋动科技的发展,包括国开装备基金、沙特阿美旗下多元化风投基金 Prosperity7 Ventures、元禾重元、招银国际、顺为、高瓴、嘉御、戈壁、讯飞和涌铧在内的国内外顶级 VC 正在见证趋动科技锐意进取的脚步。