
书: https://pan.baidu.com/s/1xhc2t938Uhd6HLI6pHjlVg?pwd=77ya
笔记如下:
1. FPGA基础架构
- 可编程逻辑单元(CLB):基于查找表(LUT)实现组合逻辑,配合触发器(FF)完成时序电路。
- 布线资源:全局与局部互连网络决定信号延迟,是性能优化的关键。
- 异构计算:集成ARM核(如Xilinx Zynq)实现“CPU+FPGA”协同计算。
2. AI加速设计方法
- 并行计算优势:FPGA的流水线架构适合矩阵乘(GEMM)、卷积(CNN)等并行计算。
- 量化与压缩:AI模型从FP32→INT8量化,减少资源占用(DSP块利用率提升3-5倍)。
- 专用架构设计:
- 脉动阵列(Systolic Array)优化数据流;
- Winograd算法减少卷积计算量。
3. 开发工具与流程
- 高层次综合(HLS):用C/C++描述算法(如OpenCL),自动生成RTL代码,降低开发门槛。
- 优化策略:
- 循环展开(Unrolling)提升并行度;
- 数据流(Dataflow)实现任务级流水。
- IP核复用:调用预置AI加速核(如Xilinx DPU)缩短开发周期。
4. 性能与功耗
- 能效比:FPGA的每瓦算力优于GPU(如INT8推理达10 TOPS/W)。
- 动态调频:根据负载调整时钟频率(如从100MHz→1GHz),平衡延迟与功耗。
- 内存优化:
- 片上BRAM缓存数据,减少DDR访问;
- 数据复用(Data Reuse)降低带宽需求。
5. 行业应用案例
- 边缘AI:
- 无人机实时目标检测(YOLO+FPGA,延迟<5ms);
- 工业质检(缺陷识别推理速度提升20倍)。
- 数据中心:
- 微软Catapult项目用FPGA加速Bing搜索排名;
- AWS F1实例部署定制化AI推理。
- 自动驾驶:
- 激光雷达点云处理(FPGA延迟确定性优于GPU)。
6. 趋势与挑战
- AI专用FPGA:
- Xilinx Versal集成AI引擎(AIE);
- Intel Agilex支持BF16浮点加速。
- 软硬件协同:
- TVM、Vitis AI等编译器优化模型部署;
- 开源工具链(如Verilator)降低生态壁垒。
- 安全加固:
- 比特流加密防止IP盗用;
- 侧信道攻击防护(如功耗分析对抗)。
7. 对比其他硬件
- FPGA vs. GPU:
- FPGA:低延迟、可定制、能效高;
- GPU:高吞吐、通用性强。
- FPGA vs. ASIC:
- FPGA:灵活迭代,适合算法未固化场景;
- ASIC:量产成本低,但流片风险高。