FPGA的CNN加速，你怎么看？

FPGA的CNN加速，你怎么看？

网上对于FPGACNN加速的研究已经很多了，神经网络的硬件加速似乎已经满大街都是了，这里我们暂且不讨论谁做的好谁做的不好，我们只是根据许许多多的经验来总结一下实现硬件加速，需要哪些知识，考虑哪些因素。

很多人都说在做FPGA的神经网络加速，可是有多少人真正拿出了实际结果，可能大部分人就是用HLS(高层次综合)写了个四五层的小网络，或者简单实现了一下卷积操作。真正要用FPGA做加速，得先明白算法的整体流程以及数据的输入输出形式，然后结合FPGA的特点设计相应的加速结构，在结构设计层次里面涉及到一些关键的点。例如，如何加速原始卷积(winograd、fft或者其他)，如何对数据进行复用减少数据的搬移次数，如何设计合理的流水线结构。在算法层次，需要对计算进行量化，因为现有的算法大部分都是浮点运算，FPGA 擅长定点运算，所以必须量化，卷积层量化方法有dynamic fixed point 方法，有聚类方法，也有mini float point 方法等等，当然除了卷积，还有softmax等分类算法如何量化，NMS如何在硬件上实现。另外目前的神经网络越做越大，FPGA资源有限，因此对网络进行裁剪也是一个需要关注的问题。

总的来说用FPGA 加速神经网络，是一个整体性工程，需要软件和硬件协同配合，另外硬件这边除了核心算法，还需要考虑数据的输入以及调度形式，可能需要用PCIE 等高速接口实时传入图像，再利用DDR3/4对计算的部分结果进行缓存，当网络确定，而一个FPGA 资源又不够用的时候，可能需要考虑两个FPGA 互联，那就需要用到光口或者其他高速接口，这些外围高速接口，如果之前没有接触过，任何一个都可能花费相当长的时间。所以说，做FPGA 加速，一个人是绝对不行的，另外，目前能够进行神经网络加速的FPGA ，xilinx 的UltraScale K/V/Zynq系列是比较合适的，但是这些属于高端FPGA，当然，不是说中低端不行，而是以目前主流网络和现有的优化手段，在资源较少的FPGA 上进行加速难度较大，而高端FPGA 价格都比较高，所以必须得考虑成本问题。

版权所有权归卿萃科技杭州FPGA事业部，转载请注明出处

作者：杭州卿萃科技ALIFPGA

原文地址：杭州卿萃科技FPGA极客空间微信公众号

扫描二维码关注杭州卿萃科技FPGA极客空间
相关阅读:
20175216 数据结构（选做）
20175216 《Java程序设计》第1周学习总结
 20175216 MyCP（课下作业）
WPF 4 DataGrid 控件（进阶篇一）
InstallShield 通过VBS操作IIS
WPF 4 DataGrid 控件（自定义样式篇）
INNO 实现Sql数据库操作
 Wix学习整理（7）——在开始菜单中为HelloWorld添加卸载快捷方式
 Wix学习整理（5）——安装时填写注册表
 Wix学习整理（4）——关于WiX文件格式和案例HelloWorld的分析
原文地址：https://www.cnblogs.com/alifpga/p/9173810.html