整理AI性能指标
Sorting out AI performance metrics
推理性能的最佳衡量标准是什么?
在人工智能加速器的世界里,对于给定的算法,芯片的性能经常以每秒万亿次的运算量(TOPS)来表示。但有许多原因说明,这可能不是最好的数据。
“客户真正想要的是每美元的高吞吐量,”人工智能加速器公司FlexLogix的首席执行官GeoffTate说。
Tate解释说,拥有更多的tops并不一定与更高的吞吐量相关。在batch size批量大小为1的边缘应用程序中尤其如此。数据中心之类的应用程序可以通过使用较大的批处理并行处理多个输入来提高其吞吐量(因为有备用的顶部),但这通常不适合边缘设备。
例如,Tate将Flex Logix’ InferX X1设备与市场领先的GPU设备进行了比较。虽然GPU提供了3到4倍的吞吐量,最高10倍,但使用的dram数量是8倍。Tate认为这使得flexlogix的架构更具资源效率。
Tate提出的每美元吞吐量指标听起来很合理,但实际上,要找到可靠的产品成本信息来进行直接比较并不容易。诸如需要多少DRAM,或者某个芯片有多少硅面积等因素可以作为成本的指标,可惜不是精确的。
Flex Logix的InfereX X1设备将于2019年年底前投产。将提供大约8.5个top。
ResNet-50公司
TOPS作为度量标准的另一个问题是,通常在运行ResNet-50时进行度量。
Tate说:“ResNet-50不是客户关心的基准,但是人报告最多的一个。“不太相关的原因是使用了非常小的图像。”
如今,ResNet-50在很大程度上被视为过时,已经存在了一段时间,已经成为引用顶级数据的事实标准。有充分的理由继续使用作为一个标准;其中包括努力保持所有分数至少在一定程度上具有可比性,以及使这一事实上的标准对所有类型的设备(即使是很小的设备)都可用。然而,不足以真正挑战当今为数据中心推理而构建的巨大芯片,也不足以炫耀能力。
行业基准
除了事实上的标准,当然还有各种各样的组织在为人工智能加速器开发基准(参见:MLPerf、DawnBench、EEMBC等)。
虽然MLPerf已经发布了推断结果,但Tate认为这个基准过于面向数据中心。在这个场景中,认为在第90个时间段,一个设备的延迟是一个性能指标。
“在边缘,我认为顾客不想知道第90个百分位,想知道第100个百分位。想知道:能保证我什么?Tate说,将自动驾驶作为一种边缘应用,在这种应用中延迟非常关键。
在更复杂的图像处理任务(如目标检测)上的性能更适合于比较当今高端的人工智能加速器
当信息在多个处理器内核和内存之间传输时,长尾延迟对于那些遭受总线争用的系统来说是一个典型的问题。虽然现在的许多设备使用高带宽内存接口,但在可能发生争用的情况下,理论上仍然存在延迟。
flexlogix基于FPGA的推理处理器设计每次都有完全相同的延迟(Groq也声称这一点,尽管坚称自己的设备不是FPGA)。
“由于我使用的是我的共同创始人在核心发明的FPGA互连,因此从内存到乘法累加器,到激活逻辑,再到内存,都有一条完全专用的路径。所以没有争议:事情就是这样。Tate说:“我的利用率不是百分之百,但我的利用率比其所有体系结构都要高得多。”。
市场
对于这一领域芯片初创公司数量的激增,泰特对FlexLogix的前景持乐观态度。
“当芯片投入使用,软件运行,展示演示,当看到价格和力量……很快,那些不在上四分之一的公司就会消失。”。
泰特的预测是,根据不同的细分市场(训练、推理、数据中心、edge、超低功耗等),这一领域可以支持10或15种芯片产品。今天提供的产品在计算能力方面跨越了多个数量级,因此并不都是直接相互竞争的。
泰特提到沃伦•巴菲特的名言:“在未来的一两年里,将有一场大规模的牛群淘汰,当潮水退去时,可以看到谁在裸泳。”