核心技术解读：AlphaGo是如何一步步首败李世石的？-EDN 电子技术设计

 AlphaGo已经以事实证明要不了那么久。与传统解决方案不同，AlphaGo人工智能程序结合了深度神经网络机器学习方法和树搜索算法。简单来说，就是先让AlphaGo观察人类下围棋，然后通过将不同决策进行比较来提升技能，这一过程被叫做强化学习。

3月9日下午3点30分,备受各界关注的人机世纪大战首战结果公布，执黑先行的李世石，在中盘局势领先的情况下，被 AlphaGo敏锐捕捉到其右下角局部的失误，随即AlphaGo获得主动权，最终1-0，AlphaGO取得本局的胜利。面对9段高手李世石，AlphaGo不仅与其“分庭抗礼”，且最终获得首胜。我们不禁要问，作为一款计算机程序，AlphaGo的计算能力到底有多强呢？这不禁让人想起曾经声名显赫、轰动世界的IBM“深蓝”。深蓝是美国IBM公司生产的一台超级国际象棋电脑，重1270公斤，有32个大脑（微处理器），每秒钟可以计算2亿步，计算能力11.38 GFLOPS，输入了一百多年来优秀棋手的对局两百多万局。 IBM的深蓝曾在1997年战胜国际象棋世界冠军卡斯帕罗夫。而据搜狗CEO王小川表示，现在，一台笔记本的计算能力已是当年IBM计算机深蓝的3万倍。 AlphaGo的“大脑”如何战胜人脑？ 传统的人工智能方法是将所有可能的走法构建成一棵搜索树，但这种方法对围棋并不适用。而据了解，此次谷歌的AlphaGo使用的是蒙特卡洛树搜索算法，将高级搜索树与深度神经网络结合在一起，而其中的深度神经网络，则是由 “价值网络”(value network)与“决策网络”(policy network) 这两种不同的深度神经网络一起构成。值网络评估大量选点计算局面，策略网络则负责选择落点。这些神经网络通过12个处理层传递对棋盘的描述，处理层则包含数百万个类似于神经的连接点。说通俗一点，就是围棋过程中，AlphaGo 的“大脑 ”可以模拟人脑先“筛选”出那些有利的棋局，并“抛弃”掉明显的差棋，从而将计算量控制在AlphaGo “大脑”可以完成的范围内。具体来看：　　1. “价值网络”负责减少搜索的深度：AI 会一边推算一边判断局面，局面明显劣势的时候，就直接抛弃某些路线，不用一条道算到黑。　　2. “策略网络 ”负责减少搜索的宽度：面对眼前的一盘棋，有些棋步是明显不该走的，比如不该随便送子给别人吃。　　3.利用蒙特卡洛拟合，将这些信息放入一个概率函数，AI 就不用给每一步以同样的重视程度，而可以重点分析那些能赢的棋步。　

AlphaGo核心技术解读 SdRednc

众所周知，机器最初通过模仿人类玩家，尝试匹配职业棋手的棋局，一旦它达到了一定的熟练程度，它开始和自己对弈大量棋局，使用强化学习进一步改善它。而谷歌AlphaGo的训练方式有过之而无不及。谷歌方面用人类围棋高手的三千万步围棋走法训练神经网络，与此同时，AlphaGo也自行研究新战略，在它的神经网络之间运行了数千局围棋，利用反复试验调整连接点，这个流程也称为巩固学习(reinforcement learning)，通过广泛使用Google云平台，完成了大量研究工作。【分页导航】

《电子技术设计》网站版权所有，谢绝转载 {pagination} AlphaGo运算学习的两大核心技术分析 出门问问的NLP工程师李理则从技术角度分析了AlphaGo的核心算法技术： MCTS(Monte Carlo Tree Search) MCTS之于围棋就像Alpha-Beta搜索之于象棋，是核心的算法，而比赛时的搜索速度至关重要。就像深蓝当年战胜时，超级计算机的运算速度是制胜的关键因素之一。

AlphaGo核心技术解读 SdRednc

MCTS的4个步骤：Selection，Expansion，Evaluation(rollout)和Backup MCTS的并行搜索： (1) Leaf Parallelisation 最简单的是Leaf Parallelisation，一个叶子用多个线程进行多次Simulation，完全不改变之前的算法，把原来的一次Simulation的统计量用多次来代替，这样理论上应该准确不少。但这种并行的问题是需要等待最慢的那个结束才能更新统计量；而且搜索的路径数没有增多。 (2) Root Parallelisation 多个线程各自搜索各自的UCT树，最后投票 (3) Tree Parallelisation 这是真正的并行搜索，用多个线程同时搜索UCT树。当然统计量的更新需要考虑多线程的问题，比如要加锁。另外一个问题就是多个线程很可能同时走一样的路径（因为大家都选择目前看起来Promising的孩子），一种方法就是临时的修改virtual loss，比如线程1在搜索孩子a，那么就给它的Q(v)减一个很大的数，这样其它线程就不太可能选择它了。当然线程1搜索完了之后要记得改回来。《A Lock-free Multithreaded Monte-Carlo Tree Search Algorithm》使用了一种lock-free的算法，这种方法比加锁的方法要快很多，AlphaGo也用了这个方法。 Segal研究了为什么多机的MCTS算法很难，并且实验得出结论使用virtual loss的多线程版本能比较完美的scale到64个线程(当然这是单机一个进程的多线程程序）。AlphaGo的Rollout是用CPU集群来加速的，但是其它的三个步骤是在一台机器完成的，这个就是最大的瓶颈。 DCNN(Deep Convolutional Neural Network)

AlphaGo核心技术解读
（使用深度神经网络训练的Policy Network和Value Network）
SdRednc

神经网络训练的时间一般很长，即使用GPU，一般也是用天来计算。Google使用GPU Cluster来训练，从论文中看，训练时间最长的Value Network也只是用50个GPU训练了一周。给定一个输入，用卷积神经网络来预测，基本运算是矩阵向量运算和卷积，由于神经网络大量的参数，用CPU来运算也是比较慢的。所以一般也是用GPU来加速，而AlphaGo是用GPU的cluster来加速的。 论文送审时(2015年11月)AlphaGo的水平 论文里使用Elo Rating系统的水平：

AlphaGo核心技术解读
（使用深度神经网络训练的Policy Network和Value Network）
SdRednc

a图是用分布式的AlphaGo，单机版的AlphaGo，CrazyStone等主流围棋软件进行比赛，然后使用的是Elo Rating的打分。 b图说明了Policy Network Value Network和Rollout的作用，做了一些实验，去掉一些的情况下棋力的变化，结论当然是三个都很重要。 c图说明了搜索线程数以及分布式搜索对棋力的提升。【分页导航】

《电子技术设计》网站版权所有，谢绝转载 {pagination} 李世石还有雪耻的机会吗？ 谷歌DeepMind CEO Hassabis表示，用强化学习技术“教”机器下围棋，就如同教小孩子一样，不是让程序员添一段代码就完事，而是要给程序看足够多的案例，让机器自己“领悟”到正确的下法。从一定程度上说，AlphaGo是在以预测的方式模拟人类的直觉，试图以人类的思维去学习围棋。目前，AlphaGo模仿人类的直觉判断程度约为80%，但李世石表示由于它的运算速度要优于自己，所以要格外小心。这种强化学习技术的应用，其实早已不局限于围棋。DeepMind曾用相同的技术教会计算机玩雅达利（美国电脑游戏机厂商）的经典游戏。另有消息称，DeepMind最近宣布与英国国民健康服务中心（NHS）合作，首个项目是为医生护士开发一款可以监测到病人是否出现急性shen衰竭的App。需要说明的是，人脑不可能像电脑一样无时不刻地接受“深度学习”，所以理论上来说只要 AlphaGo 经历了足够的训练，就能击败所有的人类围棋选手。原来机器已经如此可怕，接下来的比赛，李世石还有雪耻的机会吗？（文章来源：雷锋网李理宗仁、新浪科技、天极网）【分页导航】

SdRednc

阅读全文，请先

工业电子

上一篇： 连耳孔形状都可做生物识别！人体究竟还有多少个“唯一性”？ 下一篇： “菲”常大咖语录：AI或使人类丧失斗志，苹果和FBI都在扯淡

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
电力电子科学笔记：金属电导率与索末菲模型与Drude-Lorentz模型相比，索末菲模型向前迈出了决定性的一步。
10BASE-T1S：利用下一代以太网引领智能工厂革新在本文中，我们将探讨为什么10BASE-T1S，作为一种单对以太网标准，成为了替代传统以太网和硬连线解决方案用于工业自动化的首选通信协议。
振动测试如何巩固电子制造的质量保证振动分析并非测试产品质量的唯一方法。然而，它在行业中的应用范围远不止于生产线的末端检测，通过在多个领域实施振动分析，电子企业可以从中获益良多。
设计IP市场增幅创历史新高，谁才是最强王者？ 2024年，设计IP收入达到85亿美元，增长20%，创历史新高···
一文带你了解电子器件中的电阻率电阻率是电子和材料科学领域的一个基本概念，特别是在设计电路和选择电子元件材料时尤为重要。
增强自主移动机器人的安全性如何设计出能安全有效地与人类协作的 AMR 系统，需要考虑哪些关键要素？本文进行了探讨。
AI时代的氮化镓：市场与技术将走向何方？ AI时代，氮化镓、碳化硅这样类新兴技术也正与AI挂钩，因为AI基础设施的算力、电源需求都不同于往常。为此，我们采访了英飞凌高级副总裁、氮化镓业务负责人Johannes Schoiswohl，谈了谈氮化镓市场与技术的未来…
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+ 在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温度，又会与空调系统的加热器和加热泵协通工作维持舒适的车内温度···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

核心技术解读：AlphaGo是如何一步步首败李世石的？