FPGA运算单元可支持高算力浮点-EDN 电子技术设计

 Achronix创新的机器学习处理器（MLP）突破传统FPGA运算瓶颈

随着机器学习（Machine Learning）领域越来越多地使用现场可编程门阵列（FPGA）来进行推理（inference）加速，而传统FPGA只支持定点运算的瓶颈越发凸显。Achronix为了解决这一大困境，创新地设计了机器学习处理器（MLP）单元，不仅支持浮点的乘加运算，还可以支持对多种定浮点数格式进行拆分。S8Zednc

MLP全称Machine Learning Processing单元，是由一组至多32个乘法器的阵列，以及一个加法树、累加器、还有四舍五入rounding/饱和saturation/归一化normalize功能块。同时还包括2个缓存，分别是一个BRAM72k和LRAM2k，用于独立或结合乘法器使用。MLP支持定点模式和浮点模式，对应下面图1和图2。S8Zednc

S8Zednc

图1定点模式下的MLP框图S8Zednc

S8Zednc

图2浮点模式下的MLP框图S8Zednc

考虑到运算能耗和准确度的折衷，目前机器学习引擎中最常使用的运算格式是FP16和INT8，而Tensor Flow支持的BF16则是通过降低精度，来获得更大数值空间。下面的表1是MLP支持的最大位宽的浮点格式，表2说明了各自的取值范围。S8Zednc

S8Zednc

表1MLP支持的最大位宽的浮点格式S8Zednc

S8Zednc

表2不同运算格式的取值范围S8Zednc

而且这似乎也成为未来的一种趋势。目前已经有不少研究表明，更小位宽的浮点或整型可以在保证正确率的同时，还可以减少大量的计算量。因此，为了顺应这一潮流，MLP还支持将大位宽乘法单元拆分成多个小位宽乘法，包括整数和浮点数。详见下表3。S8Zednc

值得注意的是，这里的bfloat16即Brain Float格式，而blockfloat为块浮点算法，即当应用Block Float16及更低位宽块浮点格式时，指数位宽不变，小数位缩减到了16bit以内，因此浮点加法位宽变小，并且不需要使用浮点乘法单元，而是整数乘法和加法树即可，MLP的架构可以使这些格式下的算力倍增。S8Zednc

表3是Speedster7t系列1500器件所支持的典型格式下的算力对比，可以看到，单片FPGA的浮点算力最高可达到123TOPS。S8Zednc

S8Zednc

表3 Achronix的Speedster7t系列1500器件支持的典型格式的算力对比S8Zednc

下图3是MLP中FP24/FP16乘加单元的简化结构图，即一个MLP支持FP24/FP16的A*B+C*D，或者A*B，C*D。S8Zednc

S8Zednc

图3MLP中FP24/FP16乘加单元的简化结构图S8Zednc

而以下的图4则是块浮点乘加单元结构。S8Zednc

S8Zednc

图4块浮点乘加单元结构S8Zednc

这里考虑浮点数序列块a_i=ma_i•2^ea，浮点数序列块bi=mbi•_i•2^eb，各序列块内均拥有相同的指数ea和eb。则S8Zednc

S8Zednc

不难看出，乘法单元的个数取决于尾数（即整数）位宽。S8Zednc

S8Zednc

表4 MLP中乘法单元的个数与整数位宽的关系S8Zednc

阅读全文，请先

FPGA 产业前沿处理器/DSP 人工智能

上一篇： 从3个公式看输入电容对运算放大器的危害 下一篇： 加速AI深度学习，BF16浮点格式应运而生

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
第二代Versal Premium系列问世，AMD如何突破数据密集型继第一代Versal Premium系列自适应SoC之后，AMD于2024年11月12日发布了第二代Versal Premium系列产品，这是业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件···
TPLD助力工程师在数分钟内完成分立式逻辑设计通过将多达40个逻辑元件集成到单个芯片上，工程师可以大幅减小电路板尺寸。使用德州仪器的InterConnect Studio工具，工程师无需软件知识即可在数分钟内轻松设计、仿真和配置德州仪器的可编程逻辑器件。
德州仪器(TI)全新可编程逻辑产品系列助力工程师在数分全新可编程逻辑器件和无代码设计工具可降低工程设计复杂性和成本、减少布板空间并缩短时间。
AMD发布第六代Spartan FPGA系列，重塑IoT时代的I/O密集日前，AMD正式发布了其第六代Spartan FPGA产品——Spartan UltraScale+ FPGA系列，该产品系列能为边缘端各种I/O密集型应用提供成本效益与高能效性能，在基于28纳米及以下制程技术的FPGA领域带来业界极高的I/O逻辑单元比，较之前代产品可带来高达30%的总功耗下降···
Achronix推出基于FPGA的加速自动语音识别解决方案提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流
Microchip FPGA采用量身定制的PolarFire FPGA和SoC解涵盖工业和通信领域以及智能嵌入式视觉、电机控制和光学接入技术等十个系列的协议栈，内容包括 IP、参考设计、开发套件、应用说明、演示指南等
AMD 以面向工业与商业应用的 Kria K24 SOM 及入 K24 SOM 和 KD240 套件支持为电机控制和数字信号处理应用设计高能效量产就绪型解决方案，并加速上市进程···
AMD Kria新品只有信用卡一半大，无需FPGA经验一小时内日前，AMD宣布推出AMD Kria™ K24系统模块（SOM）和KD240驱动器入门套件，这是Kria自适应SOM及开发者套件产品组合的最新产品。AMD Kria K24 SOM能以小尺寸提供高能效计算，面向成本敏感型工业和商业边缘应用···
通过AI加速，智能终端应用得到创新提升京微齐力采用Imagination AI加速器，助力打造Avatar高端产品系列第一颗新型智能加速芯片，为不同行业用户提供高性价比、强适配性的系统级平台解决方案
2023年嵌入式调查：随着工作负载的激增，更多IP将会被重复最新的2023年嵌入式调查已经出炉，它不仅显示了迅速增长的工作负载以及工程师如何应对处理，还展示了最常用的设计工具、操作系统和处理器。
Microchip发布业界能效最高的中端FPGA工业边缘协议栈这些新工具使得转向使用PolarFire FPGA和片上系统（SoC）FPGA变得比以往更容易

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

FPGA运算单元可支持高算力浮点