语音识别并不像你想象的那样新。业界已对其进行了约60年的研究,有成功也有失败。
1952年,第一个已知的语音识别系统“Audrey”诞生了。这个全模拟的系统是由贝尔实验室的K.H. Davis、R. Biddulph和S. Balashek所设计,可以识别暂停之间的数字字符串(是为早期的语音拨号系统而设计)。其准确性达到了能够识别说话人的程度。为什么它没火起来?原因是,除了非常昂贵而且需要经常维护外,该系统还做在一个六英尺高的继电器机架上,功耗也很大(它是由真空管做成的)。
然后,IBM在1961年开发了Shoebox。该机器可以识别出说话人对其话筒说的16个单词,并将这些声音转化为电脉冲(图1)。
图1:加利福尼亚州圣何塞市IBM高级系统开发实验室先进技术小组经理E. A. Quade博士在这里展示了Shoebox,这是一款60年代对语音命令进行算术运算的实验机器。(图片由IBM提供)
我们已走了很长一段路!现在云处理和大数据已能实现好得多的语音识别和控制(过去我们看到了一些非常原始的语音识别和控制,但现在正在发展)。本文最后将介绍一些关于汽车GPS导航系统双向音频的有趣的新概念。
我最近与DSP Concepts公司的首席技术官Paul Beckmann进行了交谈。我们讨论了晶晨半导体公司(Amlogic)的Alexa参考设计——它将SoC与Sensory公司的TrulyHandsfree语音唤醒技术进行了结合使用。DSP Concepts仍然致力于加速音频产品的开发,但Beckmann注意到市场上正在出现许多的基于语音的产品。现代语音识别的架构设计颇具挑战性,而良好的麦克风技术——加之完整的软件算法套件(DSP Concepts的专长)——是其成功所需的重要专长领域。Audio Weaver这款音频集成和设计工具,仍然是这个套件的一个组成部分。Beckmann表示,其产品组合由其语音用户界面(UI)方案所领衔,并由Audio Weaver这一可对用户所需不同应用进行定制和优化的工具提供支持。
亚马逊真的把语音识别带到了技术的最前沿。因为亚马逊对该技术的云端/数据收集方面感兴趣(“Alexa,为我订购这个商品”),所以他们鼓励大众开发连接到亚马逊语音服务(AVS)的产品。他们最近努力认证兼容于AVS的参考设计。设计人员可以利用这些参考设计来设计产品。
迄今为止,亚马逊认证的所有参考设计都需要一个外部DSP。科胜讯(Conexant)、ADI和其他公司都有基于DSP的解决方案。无论是否有云连接都需要SoC,但以前,设计人员需要一个DSP和一个SoC。DSP Concepts的所有软件解决方案都运行在其中一个SoC内核的一部分上,因此不需要单独的DSP。DSP Concepts拥有第一款基于SoC的软件解决方案。晶晨半导体这家提供机顶盒、电视机、智能音箱等参考设计的供应商,是第一家和DSP Concepts合作向市场推出产品的公司。
DSP Concepts的解决方案是获得亚马逊完全认可的首个SoC/音频算法合作成果,他们提供2个、4个和6个麦克风配置。
Ambiq Micro公司的微控制器用CR2032纽扣电池供电可工作一星期以上,并且比目前市场上的其他产品具有更好的语音用户界面(UI)质量。Ambiq Micro、DSP Concepts和Sensory合作,为智能手表、耳机、智能家居终端设备、健康监护仪和可穿戴设备等便携式消费类产品的不间断关键字检测和设备内置命令语句识别提供了新的能效水平。
回声消除器(AEC)——即使在回放音乐时,也能使麦克风听到语音命令。
到达方向估计——确定语音来自的方向(与波束成形一起使用)。
远场波束成形——结合多个麦克风信号来提高语音识别的质量。
降噪——去除本底噪声和干扰源(如电视和空调),以进一步改善语音识别(VR)。
触发词——产品识别的唤醒词,如“Alexa”。
语音服务集成——后端基于云的语音服务。
麦克风处理音频IP
• 注意力处理
• 降噪
• 静音检测器
• 优化的波束成形器
回放处理音频IP
• 音量管理
• 低音增强
• 对话增强
波束成形器
图4显示了采用DSP Concepts优化算法设计的不同的麦克风几何形状。
语音用户界面的性能在很大程度上取决于信噪比(SNR),也即在环境中给定其他干扰信号响度的情况下,人的声音有多大。DSP Concepts开发了一种优化接收信噪比的波束成形器设计算法。由于问题的根本是信噪比,因此他们不是针对特定波束图进行设计,而是在麦克风阵列的输出端优化信噪比。因此,用户可以查看麦克风的几何形状、房间中的噪声级别,甚至对使用的麦克风质量来说SNR有多大,并利用这些信息进行优化(图2)。
图2:关注用户声音的SNR优化的波束成形器图表。上面的图表对应的是2麦克风阵列。(图片由DSP Concepts提供)
注意力处理
处理“唤醒词”的算法有很多。一个例子是在晶晨的参考设计中,它具有专注于“唤醒词”、被称为“注意力处理”的处理算法。根据环境,该系统能够知道什么时候注意、什么时候忽略事物。这减少了误报和漏报。该软件能模仿人类行为,有时特别关注某事,其他时间则不太关注。
高级降噪
这里的主要挑战还不是设计回声消除器,而是处理环境噪声的方法。在家中可能会有洗碗机在工作,电视或收音机在播放,这些声音需要以某种方式忽略掉。解决这个问题有不同的降噪算法。一些算法用于处理稳态或平稳噪声(风扇和空调),另一些则针对定向干扰(收音机和电视)。
在智能家居中,人们希望空调具有语音UI。在汽车环境中,存在路噪和发动机噪声等等。
静音检测器
电池应用需要低功耗处理,因此系统中有个算法去听其中一个麦克风的声音,看是否有事需要注意。一旦检测到声音,它就会唤醒系统的其余部分,以便对声音进行更高级的处理。
他们还拥有完整的交钥匙软件解决方案,为正在设计云连接系统的设计人员提供全套算法。
图3:DSP Concepts提供了全功能的语音解决方案(除语音识别和唤醒词之外,还包括其他一切)。(图片由DSP Concepts提供)
根据设计的特定应用,麦克风阵列有许多不同的几何形状,因此DSP Concepts公司既有带6或7个麦克风的高端方案,也有针对每种阵列的低成本方案。这些算法工作得非常好,以至于在噪声环境下,他们的2麦克风解决方案在远场拾音和稳定工作方面胜过了市场上许多采用7个麦克风的解决方案。
许多客户对能够实现更低成本系统的双麦克风解决方案感到满意——妥协和权衡总是任何设计工作免不了的一部分。Beckmann表示,我们人类只有两只耳朵,却工作得很好(图4)。
图4:各种麦克风阵列。(图片由DSP Concepts提供)
设计的某些部分可能难以调试,例如,很难对与音箱麦克风调音不当的某些地方进行调试。因此,为加快设计者的产品上市进度,DSP Solutions利用其图形工具来了解问题所在,并帮助优化微调系统。
一个例子是系统工作在大声播放音乐的情况下。麦克风本底噪声可能过高,导致麦克风削波或达到声学过载点。杂散谐波可能会漏进,EMI问题可以通过高频抑制,甚至通过拾取混叠回的杂散信号来解决。他们有调试和诊断这些及更多问题的工具。你想在设计过程的早期就揪出这些问题,这样可以避免设计过程后期的硬件迭代。
以下是如何用验证帮助解决问题的一个示例。SoC上的时钟漂移比DSP严重。
图5中上面的图表是麦克风和扬声器之间测得的延迟。延迟是在发送测试信号的同时实时测量的(注意信息随时间不断漂移)。在这个例子中,麦克风和扬声器都是48kHz,但是是两个不同的时钟。SoC没有正确配置。回声消除器需要不断调整适应这个恒定延迟,每隔20到30分钟就会有一个音频丢失。因为你已经超限或欠限了,所以这很难调试。
图5:输入和输出时钟不同步,导致延迟随时间漂移。这会影响AEC性能。(图片由DSP Concepts提供)
现在,当修正这个问题后,我们得到图6中的曲线。
图6:现在时钟正确锁定,AEC按预期执行。(图片由DSP Concepts提供)
另一个验证示例是扬声器失真。扬声器失真会产生回波消除器无法正确处理的干扰谐波。在图7中,气泡代表总谐波失真(THD)的失真百分比。
图7:扬声器失真,在600Hz处有强烈共振,导致塑料外壳变形。“气泡”代表不同频率和回放水平下THD的百分比。(图片由DSP Concepts提供)
DSP Concepts建议THD低于3%,以获得足够裕量。Y轴SPL是扬声器声压级(SPL)或响度水平。因为当扬声器被驱动到高响度水平时,会达到其偏移极限,而导致失真,所以图中顶部的大气泡是可以预料的。因此,当扬声器调音后,压缩器限幅器可以放进扬声器本身。
外壳共振也造成600-700Hz范围内有很多气泡出现。当扬声器回放时,塑料外壳发出咔嚓声,该声音直接进入麦克风。当听这个产品时,因为失真不是通过空气辐射,而是通过塑料传导,所以声音听起来很干净。通过在产品内部使用一些泡棉胶带可以很容易地解决此问题。
Beckmann表示,许多公司都熟悉扬声器产品设计,这比麦克风容易得多。这是因为如果扬声器失真,你可以马上听到。使用麦克风,我们听不到麦克风信号,因此很多这些问题最终不会被发现,导致最终产品的性能不佳。
智能家居用途包括向恒温器、灯开关或墙壁面板系统等发语音命令。当今,在有能力向遥控器发语音命令的地方,用户也能直接向电视机或机顶盒发语音命令。
在汽车领域,有时候我们不能在车内使用智能手机,因此现在我们可以转向更先进的语音界面。为什么我要用几十个按钮来调节气候控制或娱乐系统?控制可以容易些吗?可听戴设备和可穿戴设备或带有谷歌智能助理的耳机可以实现这个功能。
在本文讨论的DSP Concepts创新解决方案的帮助下,我们可以将苹果的Siri、亚马逊的Alexa和OK Google等双向音频命令接口应用于我们汽车中使用的GPS导航系统。你不知道我喊了多少次,要求澄清,与我车上的GPS系统起争执,当然,这都是我唱独角戏。然而,将双向辅助功能集成到软件中会带来极大便利——首先会出现在第三方电话或笔记本电脑应用中,但最终将会由汽车制造商集成进车载信息显示系统。
当然,这里需要有个“触发词”,但是还需要个包括命令和疑问句的基本命令集。另外,为减少估算、计算和搜索的工作量,还增加了一套命令。然后,我们也可以从许多导航系统中显示的文本中提取数据。
错误来源需要解决,例如当发声不匹配显示的文本指令时。从一种语言翻译成另一种语言也可能是下一步。
对讲机和会议电话将大大受益于这项技术。任何曾经坐在会议室、采用这种技术的人都会意识到这种交流是多么烦人。有了这项新技术,我们终于可以就好像所有成员都在房间里一样地交谈。
另外一个例子是智能家居监听和检测漏水或烟雾报警,并提醒业主。情境感知和医疗用途也将从这种新的改进技术中受益。
《EDN电子技术设计》2018年3月刊版权所有,转载请注明来源及链接。