摘要:
随着深度学习和神经网络技术的发展,为了充分挖掘卷积◥神经网络(CNN)计算的并▆行性,硬件加速器以其高速、低成本、高容错能力等◣特点得到更加广泛的应用.本文提出了一种可以逐层优化CNN网络的新■算法,设计了对应的指令集.所提出的算法可用于为具有特定计算资源和存储资源的不同网络找到最佳加速方案.在优化↘过程中,可以将不同类①型的数据量化为半精度以减少内存访问.基于40 nm CMOS工艺和╳提出的算法,完成了一种指令集控制的神经网络加速器设计.该加速器在200 MHz的工作频率下,峰值性能可达到416 GOP/s.在设计的加速器上实现了VGG16网络的推理过程』,整个网♂络的延迟仅为116毫秒.