视觉Transformer已经超越CNN：原因分析以及如何发挥它们的最佳性能-EDN 电子技术设计

 本文将探讨ViT成为首选的原因、ViT的关键不同之处，以及要最大限度地发挥其的性能，哪些硬件功能必不可少。

视觉AI已不再依赖CNN——接下来会如何发展？

多年来，卷积神经网络（CNN）在人工智能视觉领域一直占据主导地位，广泛用于自动驾驶辅助、人脸识别、视频监控等场景。但现在，行业已经转向——视觉Transformer（Vision Transformer，ViT）现已被公认为在很多计算机视觉任务中表现更优。ViT能理解全局信息，具备抗干扰能力，并能处理复杂场景，已经成为视觉AI的新标配。h0Xednc

现在大家已不再讨论“ViT是否会取代CNN”。它们已经完成了这场超越。现在新的挑战是：如何让ViT高效运行在真正为它量身打造的硬件上。h0Xednc

本文将探讨ViT成为首选的原因、ViT的关键不同之处，以及要最大限度地发挥其的性能，哪些硬件功能必不可少。h0Xednc

h0Xednc

为什么视觉Transformer会全面胜出？

CNN用自下而上的方式处理图像，从边缘到特征逐层提取，最后识别出完整的物体。这种方法对于干净、理想的图像效果很好，但若遇到遮挡、图像损坏或对抗性噪声时，就容易出错。而Transformer是在整体上对图像进行分析，通过注意力机制理解图像中各区域之间的关系。h0Xednc

《量子杂志》曾用一个生动的比喻说明：“CNN像是从单个像素开始逐步放大；Transformer则像是慢慢让整幅模糊图像逐渐聚焦。”h0Xednc

这种方式使得ViT具有显著优势：h0Xednc

复杂场景中的卓越物体识别能力——CNN专注于局部特征，而ViT不同，它考虑的是全局背景，因此在杂乱的环境中（如部分被车辆遮挡的行人），ViT表现远优于CNN。
更强的抗干扰能力——CNN容易被细微像素扰动误导（如将停车标志误识别为让行标志）。ViT的整体性分析使其更难被干扰。
更优的场景解析适应性——像自动驾驶这样的任务，不只需要识别物体，还要分割场景、规划路径。ViT在这些方面表现非常优秀。

当然，这些优势需要代价：ViT计算复杂度高，对算力的需求远超CNN。因此，当下的研究焦点转为了AI硬件优化。h0Xednc

h0Xednc

什么样的硬件才能真正释放ViT的潜力？

要让ViT在边缘AI应用中发挥全部实力，底层硬件需针对其独特计算需求优化。支持ViT的神经网络处理器（NPU）需具备以下能力：h0Xednc

高效的注意力机制加速——ViT依赖矩阵乘法与注意力层，而非CNN的卷积运算，硬件需针对性优化，必须有能力快速处理这类计算流程。
混合数据类型支持——ViT的注意力计算需浮点精度，而多层感知机（MLP）阶段则可用低位整数（如INT8），硬件需平滑切换。硬件必须流畅无阻地处理这种过渡。
结构化与非结构化稀疏计算加速——ViT存在大量冗余计算（如零值乘法）。高效硬件可跳过这些非必要步骤，提升速度与能效。
高吞吐量定制算子——将计算任务安排在外部加速器通常会拖慢推理速度。相反，硬件必须将定制算子与Transformer核心集成到同一流水线中，才能实现最高效率。
并行与多核心计算能力——场景分割与理解需大量并行运算。要高效完成此类任务，多引擎支持不可或缺。
模型压缩与剪枝支持——ViT参数量巨大，可达数十亿。支持剪枝和压缩的硬件，可最大限度地减少加载时间和内存压力。
片上处理减少内存瓶颈——部分先进的ViT方案可直接在本地设备端运行，无需外部内存，显著提升边缘AI效率。

未来已来：ViT专用硬件是下一站

视觉AI正迅速演进，ViT已在自动驾驶、安防等关键领域超越CNN。下一挑战在于确保NPU硬件在高效支持ViT的同时，兼顾能效与实时性。h0Xednc

h0Xednc

责编：Ricardo

阅读全文，请先

人工智能嵌入式系统安全与可靠性测试与测量人机交互模拟/混合信号/RF 通信传感器/MEMS 网络/协议光电及显示汽车电子自动驾驶智能硬件消费电子技术实例创新/创客/DIY 产业前沿工程师职业发展

上一篇： 只要三个分立器件，就能将PWM连接至开关稳压器 下一篇： 返回列表

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

释放AI潜能，Arm计算平台构建计算与存储的未来当下，我们正处在激动人心的人工智能 (AI) 技术变革初期阶段。随着自然语言、多模态大模型以及生成式 AI 技术的加速演进，AI 正以前所未有的速度重塑各行各业···
兆易创新推出GD25NE系列SPI NOR Flash：专为1.2V SoC 业界领先的半导体器件供应商兆易创新GigaDevice宣布推出专为1.2V SoC应用打造的双电压供电SPI NOR Flash产品——GD25NE系列···
康佳特发布领先的AI边缘计算模块搭载英特尔酷睿Ultra处理器解锁工业嵌入式新效能···
瑞萨推出集成DRP-AI加速器的RZ/V2N，扩展中端AI处理器阵无需冷却风扇的高能效MPU实现先进的边缘视觉AI，缩小系统尺寸并降低成本···
华为离职“天才少年”预告：通用具身基座大模型GO-1有何 3月10日，智元机器人正式发布了重量级新品，全球首个通用具身基座大模型——智元启元大模型GO-1···
DeepSeek锐评Manus：适合尝鲜，别太当真让我们一起看看DeepSeek这个大脑是怎么评价Manus这双手的···
人工智能时代来临：AI需要伦理吗？如今，人工智能已成为人们老生常谈的话题，因此，有必要明确什么是人工智能，是否存在伦理准则以及需要考虑的潜在风险，以便正确使用人工智能···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···
人工智能前沿｜2025 年影响工程的顶级趋势想要在人工智能竞赛中保持领先的工程领导者应该关注四个关键领域的进步：生成式人工智能、验证和确认、降阶模型（ROM）和控制系统设计···
人工智能对数据中心基础设施带来了哪些挑战在加密货币和人工智能/机器学习（AI/ML）等新兴应用的驱动下，数据中心的能耗巨大，并将快速增长以满足用户需求···
以极致能效破解人工智能背后的“能源危机” 电力正在成为威胁人工智能（AI）进步的最新瓶颈，而人工智能迅猛增长的算力背后，攀升的能源占用也正在大量挤占正常的社会用能需求···

难以置信！损耗大了2倍，原因是高速信号自己被自己串扰了一天下午，Chris正愁着下周不知道给大家看点啥文章的时候，百无聊赖中翻翻之前的案例，找到多年之前的一个看起来
激光雷达行业进入放量阶段，禾赛、速腾和华为“三国杀” 随着激光雷达行业进入量产阶段，全球激光雷达进入中国主导的局面，禾赛、速腾和华为进入三国杀的局面，禾赛科技凭
韩国2025年3月：现代与起亚持续领跑，比亚迪登场 2025年3月，韩国汽车市场在现代和起亚的引领下保持增长势头，起亚索兰托的持续成功与现代Avante的崛起凸显本土
2025年一季度中国汽车市场终端销量报告 2025年第一季度中国汽车市场，在总体补贴和降价下，各细分领域竞争激烈且格局分化。自主品牌崛起、新势力创新发
拆解报告：旗航创世20W 2C1A快充充电器旗航创世这款20W快充充电器同样延续了两路独立开关电源电路设计，分别用于USB-C1接口和USB-C2/USB-A接口的供
拆解报告：enabot赋之科技EBO SE智能陪伴机器人赋之科技EBO SE智能陪伴机器人采用不倒翁设计，底部设有传动轮组，支持手机APP远程操控，能够在家中自由移动。机
拆解报告：Apple苹果A1469电视盒子（第3代）初代Apple TV于2007年发布，到目前最新一代Apple TV 4K（2022年），该系列产品已总共迭代了7款，在性能和功能方面均得
印度汽车市场25年3月：现代Creta领跑 2025年3月，印度汽车市场以385,842辆的批发量创下新高，现代Creta和斯柯达Kylaq的出色表现成为亮点，中国品牌名爵
奇瑞的混动技术：厚积薄发，从发动机到混动系统奇瑞汽车的混动技术历经二十余年的发展，从早期探索到如今的全面突破，契合了中国自主品牌在新能源领域的崛起之
拆解报告：光威天策·奕16GB 3200MHz DDR4内存充电头网采购了光威天策系列的16GB DDR4台式机内存，这款内存设有白色铝合金散热马甲，马甲厚度为1mm，并使用冲压
拆解报告：苹果Studio Display显示器电源板PFC模块（光宝版）苹果Studio Display显示器为超薄设计，对应内部的电路板通过使用笔形电解电容，PCB镂空来降低厚度，满足空间需求
拆解报告：荣耀亲选LCHSE耳夹式耳机荣耀亲选LCHSE耳夹式耳机在外观方面，整体设计非常的轻巧，质感也较为出众。类似“盾牌”的充电盒，单手开合便捷；

意法半导体65W GaN变换器为注重成本的应用提供节省空间的电源方目标应用锁定快充、适配器和家电电源···
意法半导体推出完整的低压高功率电机控制参考设计包括FOC矢量控制、六步换向控制、高级转子位置检测、转矩控制方法，适用于工业设备和家电···
瑞萨电子推出高集成度LCD视频处理器，赋能新一代ASIL B等级车载显 RAA278830 LVDS解决方案为瑞萨行业先进的视频诊断功能实现ISO 26262合规性···
普源精电RIGOL推出MHO2000系列高分辨率示波器普源精电（RIGOL）推出MHO2000系列高分辨率数字示波器···
Nordic赋能模组为智能家居应用提供Matter over Thread功能威德姆科技W-MT-36 模组采用 Nordic 的 nRF52840 SoC 实现 Thread 和低功耗蓝牙无线连接···
由 Nordic 赋能的 Matter-over-Thread 智能锁可实现远程上锁 eufy 的 E30 智能锁采用了 Nordic nRF52840 SoC 的 “Matter-over-Thread ”连接功能，可与多种智能
Molex莫仕应对超大规模数据中心的增长，推出高性能、低维护的“即创新型扩束光学(EBO)技术提升了可靠性，并降低了清洁、检查与维护的需求，采用3M™ EBO插芯有助于简化部署、提
沪芯展 2025环球半导体产业（上海）展览会 2025Global Semiconductor Industry (Shanghai) Expo
时间：2025年6月11-13日地点：上海世博展览馆
Melexis扩展其IMC-Hall®电流传感器芯片，满足智能电力应用需求全球微电子工程公司Melexis宣布，推出MLX91218低磁场（LF）芯片。该芯片作为迈来芯IMC-Hall®电流传感器芯片的最
Cadence 利用 NVIDIA Grace Blackwell 加速 AI 驱动的工融合设计专业知识与加速计算，推动科技创新、实现能效和工程生产力方面的突破性进展，引领全球生活新范式···
MiR推出 VDA 5050 接口模块助力仓库、配送中心和制造工厂提升互 Mobile Industrial Robots (MiR) 今日正式推出 MiR VDA 5050 接口模块。该配件可以让 MiR AMR 与兼
Microchip推出AVR® SD系列入门级单片机（MCU），降低安全关键型应用该单片机系列以不到1美元的价格实现符合行业标准的功能安全要求···

热门评论
最新评论

换一换

杂志声明

视觉Transformer已经超越CNN：原因分析以及如何发挥它们的最佳性能

视觉AI已不再依赖CNN——接下来会如何发展？

为什么视觉Transformer会全面胜出？

什么样的硬件才能真正释放ViT的潜力？

未来已来：ViT专用硬件是下一站