最近调研,总结了一些公司推出的基因组计算加速产品和方案。简单罗列下几个平台,主要针对GATK流程加速。
腾讯云:双螺旋
2017年发布,一体化的数据管理PaaS平台,可进行传、存、算、管等工作。
加速原理:FPGA极光异构系统。
30x WGS运行时间:2.8h。
华为云: Falcon
2018年发布。
加速原理:FPGA
30x WGS运行时间:5~6h。
华大智造: MegaBOLT
2018年发布,web端设计,在网页上提交任务并查看结果报告。
加速原理:与Intel合作,借助 CPU+FPGA 异构计算架构与深度算法优化的组合。
30x WGS运行时间:2h。
https://www.mgi-tech.com/resource/webinars_info/23/
https://www.intel.cn/content/www/cn/zh/high-performance-computing/accelerating-genetic-decoding.html
Illumina: DRAGEN
2018年Illumina收购的NGS数据分析加速解决方案供应商Edico Genome,继承了DRAGEN。已部署AWS。
DRAGEN™ Bio-IT平台加速原理:FPGA+软件算法。
运行模式:本地、云端、混合。
https://www.illumina.com.cn/products/by-type/informatics-products/dragen-bio-it-platform.html
NVIDIA: Clara Parabricks
英伟达推出的整套 Clara Parabricks Pipeline 分析软件是一种加速计算框架,支持使用新一代测序 (NGS) 数据的人口、癌症和 RNA 应用。Parabricks Pipelines 是建立在 NVIDIA 的 GPU 架构之上,支持一系列基因分析工具来处理从测序读取到变异调用的NGS 数据。
加速原理:GPU。
30x WGS运行时间:<1h。
https://www.nvidia.cn/clara/genomics/
https://www.jiemian.com/article/2579993.html
https://docs.nvidia.com/clara/parabricks/v3.5/text/software_overview.html
Sentieon
Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。与GATK对应的流程DNAseq,已部署在阿里云和AWS等。
加速原理:X86和arm架构计算,软件优化(C++重写GATK)。
聚道科技:GeneDock HG
加速主要利用了Sentieon。
极道科技: Achelous
2016年发起,分布式调度器和执行引擎,支持超大规模科学计算和生信分析。支持GPU,FPGA等专业硬件加速。可部署私有云或AWS等公有云。
赛乐基因:BaseNumber
BaseNumber DNA测序数据分析系统通过执行基于“CUDA+GPU”计算环境开发的高并行算法,将DNA测序数据二级分析速度提升百倍,内置多种分析流程。已部署阿里云。
加速原理:CPU+GPU异构计算。
30x WGS运行时间:12min。
人和未来:GTX.CAT
GTX.CAT是一组计算高效、性能卓越、与工业标准高度一致的生物信息二级分析软件工具集,集成了DNA序列比对、BAM预处理、BAM数据质控、变异检测等功能模块,完全遵循行业接受度最高的BWA-GATK最佳实践流程,提供了一套基因组数据分析全流程的完整解决方案。已部署阿里云。
加速原理:之前推的是FPGA加速,现在推CPU加速。
30x WGS运行时间:30min。
MGI+Sentieon:Zieon
2021年华大智造与Sentieon合作推出的高通量测序数据分析一体机Zieon。双方团队详细讨论并测试了华大智造MegaBOLT和Sentieon软件模块的性能,采用合适的模块组合推出了Zieon数据分析一体机。数据显示,Zieon在准确率提升的同时可加速46倍左右。
加速原理:上游比对FPGA加速,下游CPU,软件优化模块及多任务调度系统。
30x WGS运行时间:52min。
准确性:SNP超过99.9%,Indel超过99.5%。
以上大部分平台只对二代测序数据甚至仅人类的GATK 加速,对于三代数据,鲜有专门的解决方案。个人认为,除标准的GATK流程外,目前最认可的产品应该是Sentieon,在提速的同时,保证和GATK标准结果一致。
大部分云平台并没有提供自己独特的优化算法,只是借硬件加速。几年前FPGA很流行,如今好像不行了,是什么原因呢?我不懂,也许是错觉。