把脑电波合成为语音，总共分几步？-EDN 电子技术设计

 科技的进步往往神速而出乎意料，如果霍金多活几年，他连动「肉」的劲儿都省掉，直接动动脑子，就能合成语音了。因为，脑机接口技术，又搞了个大事情。

很多人都知道霍金拥有一台极高科技含量的轮椅，能在无法动弹或者言语的情况下，合成语音，以与外界进行交流，甚至还因此著书立说2K0ednc

但也可能有很多人不知道这台轮椅是如何工作的。其实霍金一开始可以用手指来敲打键盘输出文字，但随着病情的加重，手指也无法动弹。于是相继采用过眼球跟踪和脑电波识别的技术，但最终由于病情的加重而放弃。2K0ednc

后来的霍金是戴着一副安装了红外探测器的眼镜，通过识别脸颊的一块儿肌肉运动，来代替原来的按键。2K0ednc

至少在霍金在世的时候，他采用的已经是世界上最先进的语音合成技术。但科技的进步往往神速而出乎意料，如果霍金多活几年，他连动「肉」的劲儿都省掉，直接动动脑子，就能合成语音了。2K0ednc

因为，脑机接口技术，又搞了个大事情。2K0ednc

让脑电波开口「说话」的前夜：先来打个字吧

以脑机接口的方式，捕捉大脑电波，然后实现打字的目的，再进行语音合成输出，并不是一个很难的课题。2K0ednc

去年世界机器人大会上，清华大学研发的「动态窗稳态视觉诱发电位脑机接口系统」就「主导」了一场通过脑机接口来打字的比赛。参赛者们只要在头上戴上相关设备，将注意力集中到电脑屏幕上的虚拟键盘中的字母上，脑电波就会被捕捉，然后将对应的字母显示出来。2K0ednc

字母打得多了，字也就打出来了。2K0ednc

这种方式和对霍金的一小块儿肌肉进行捕捉原理上基本上没有差别，都是通过捕捉人对字母的强烈反应而实现语言的输出。不同之处在于，霍金由世界顶尖科技团队开发，可以采用单词联想的方式提高打字的效率。2K0ednc

017ednc20190603 2K0ednc

这种方法听起来确实很高端，但也存在一定的不足。2K0ednc

第一，打字的速度较慢。英语还好一点，只要字母拼全就完成了打字的过程；而汉语还需要进行转化，遇到同音词还需要进一步进行选择，这就需要进行二次脑电波捕捉。逐字的打字方法令其在单位时间内能够打出的文字相当有限。2K0ednc

第二，对参与者的精神集中有要求，而且抗干扰较弱。脑电波是非常敏感而且活跃的。一方面人如果注意力无法高度集中，系统就将很难对字母进行定位；另一方面人的大脑在看到字母的时候往往会不由自主地产生联想，比如看到「c」会想到「copy」或者「car」等词，这也会对系统识别产生干扰。2K0ednc

正常人想要顺利打个字都极度耗费体力，就更不要说那些身患阿尔兹海默症或者其他病症导致无法言语的病人了。霍金之前没有采用类似的方案，就是考虑到无法承受如此的体力消耗。2K0ednc

当然，个人认为这种方案虽然目前仅仅还停留在科技「趣闻」或者「猎奇」的阶段，但其本身是一种突破性的。它的意义并不在于有多好用或是取得了多少实际的效果，而是在于探索出了一条脑机接口的新的道路。至少让人们看到，通过脑机接口来实现「意念」输处文本甚至是语音输出是完全可行的。2K0ednc

而这种可行性，被加州大学旧金山分校的一项研究成果，进一步证实并且加强。2K0ednc

把脑电波合成为语音，总共分几步？

加州大学旧金山分校的神经科学家的解决方案，是从解剖学的角度出发，模拟真人发音时大脑发出的口腔喉咙肌电信号对发音系统的调动，比如在发「啊」这个音的时候，嘴唇、下巴、舌头和喉咙以及其他成分的动作，然后合成相应的语音。2K0ednc

那么，要把脑电信号合成为语音，总共分几步呢？2K0ednc

第一步，样本收集。研究者让 5 名完全健康的志愿者在 UCSF Epileps 接受了一项外科手术，在其大脑中临时植入了一块电极。接下来，志愿者被要求大声朗读指定的数百句话。在朗读的过程中，科学家记录了不同语言文字在朗读过程中在大脑区域内的活动信号。2K0ednc

第二步，破译信号。通过循环神经网络（RNN）的不断学习，研究者将大脑神经信号转换成了发音器官动作的信号，这些信号与发音器官的动作直接相关，比如嘴唇、下巴、舌头、喉咙等。2K0ednc

018ednc20190603 2K0ednc

第三步，虚拟声道。虚拟不同声音所产生的声道运动，就像汉语中双唇音、唇齿音、舌尖中音等所需要调动的不同发音部位一样，正常来说，如果模拟的发音运动模式和人正常说话时一样，那么所发的音也一定是一样的。2K0ednc

最后一步，就可以进行语音输出了。2K0ednc

为了测试虚拟语音的流畅性，研究者们在亚马逊的任务众包平台 Mechanical Turk 上招募听众来对这些合成语音的 325 个单词和 101 个句子进行辨认，结果大部分的单词和句子都被人们成功识别。2K0ednc

这意味着，不用动嘴，通过脑电波来实现语音输出，完全是有可能的。这对于中风、脑损伤或其他疾病而导致的语言功能障碍的辅助，将具有里程碑式的意义。2K0ednc

技术落地尚远，「脑机」仍需努力

相较于「字母表模式」，这项研究的优势是显而易见的。2K0ednc

首先，语音合成速度会得到大大提高。字母表模式下，比如通过眼动或者肌肉块儿的捕捉，每分钟能成功输出 10 个单词左右。对于正常交流而言，一分钟说 10 个字，一方面的确很不便，另一方面确实很考验人的耐心。而通过声道模拟语音，每分钟输出的单词可以达到 150 个，这与自然语言中每分钟 100-150 个单词已经几乎没有差别。实现正常人般的交流，可以说毫无压力。2K0ednc

019ednc20190603 2K0ednc

其次，相较于捕捉大脑信号对字母的感应，语音产生的机电信号更为强烈，也就更容易捕捉。所以，这在很大程度上可以缓解因信号识别缓慢而导致语音合成效率低下和患者焦虑的问题，更进一步而言，也增加了患者的接受度。2K0ednc

当然，作为一项尚未走出实验室的技术，它的缺陷也明显存在。2K0ednc

第一，人工智能识别的准确率和数据的丰富程度呈正相关。也就是说，利用 RNN 去进行学习破译脑电波信号并将其转化为发音器官动作的信号，要想实现较高的正确率，就需要大量的数据。目前的现实是，虽然语音输出的速度很快，但也只有一半的句子会被识别出来。就像说话的时候嘴里含着一口水，必然是会影响交流的感受和效率的。2K0ednc

第二，不同语言、不同方言之间的通用性很弱，即便是同一种语言，由于方言的差异性也会导致发音的时候各部位的运动存在着细节性的发音差异，会导致语音合成的混淆。比如在汉语中「六」的发音，不同地域之间的差别达到了二十多个。为一种语言建立一种样本？似乎有点过于繁琐。2K0ednc

所以，如果能找到一种更好的方法能够增强该技术的通用性尚可，如果仅仅停留在这个层面，其产品很可能无法走入寻常百姓家，而是成为显贵人群的私人订制。2K0ednc

研究者们自己也承认，声道运动和语音的最终形成是一个复杂的关系，目前该系统对合成较慢的发音比较擅长，对说话者的节奏和语调有一定的要求，距离最终的应用，仍然是有很长的一段路要走。2K0ednc

但不管怎样，这也应该属于脑机接口技术的一次重大突破了。试想在不远的将来，你只需要动动脑子，就会有准确无误的文本或者语音转化出来，人机交互将会变得多么顺畅而自然；而对于那些长期存在语言表达障碍的弱势群体而言，或许「福音」二字，已经远不足以表达其所蕴含的难以估量的价值。2K0ednc

（来源：微信公众号脑极体（ID：unity007），作者：小豪）2K0ednc

2K0ednc

阅读全文，请先

人工智能产业前沿传感器/MEMS

上一篇： OPPO首次实现了屏下摄像头，从其专利窥其设计难点 下一篇： 使用它或者转换它

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
Arm 技术预测：2025 年及未来的技术趋势 Arm 对 2025 年及未来的技术发展做出了预测，范围涵盖技术的各个方面，从 AI 的未来发展到芯片设计，再到不同技术市场的主要趋势···
该如何设计PCB以保证恶劣环境下的信号完整性在现代电子设计中，保持PCB信号完整性是一项越来越具有挑战性的任务···
CES 2025：洞察汽车创新未来从CES 2025的汽车方案展示可以看到，汽车OEM正从黑盒解决方案转变为区域架构为主的处理主干，传感器功能也逐渐优化，结合多模态输入数据与情境感知的 ML...
CES 2025：Edge AI硬件加速再掀热潮边缘计算/边缘人工智能(Edge AI)一直是热门话题，在CES 2025也不例外。然而，实现边缘计算/智能的底层硬件是什么？又是如何实现与应用的呢？
英伟达50系列显卡发布，RTX 5090D近乎“零提升”？ 1月6日的CES展会上，英伟达正式发布了备受期待的RTX 50系列显卡···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
探索工业应用中边缘连接的未来我们的世界正变得更加智能且紧密相连，楼宇和工厂正以前所未有的方式实现自动化。为了确保这些新系统有效运行，可靠的信息通信至关重要···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

把脑电波合成为语音，总共分几步？

让脑电波开口「说话」的前夜：先来打个字吧

把脑电波合成为语音，总共分几步？

技术落地尚远，「脑机」仍需努力