广告

前端语音激活:从噪音和回声中获得清晰的语音

2018-01-31 Youval Nachum,音频与语音产品线高级产品经理,C 阅读:
现在人们习惯了语音助理的服务,相同的需求在汽车、电器、可穿戴设备上也越来越多。所有这些设备需要一个功能,在极具挑战性的声学环境下,无论是否有噪音、吵闹的音乐或其他背景声音,都能够理解用户的语音命令。前端语音激活的任务是确保用户的声音到达后端时清晰而易懂,进而它可以被处理和理解。下面来看看它是如何工作的。

语音优先(Voice-first)用户界面现在成为了智能手机和智能音箱的主流技术,Alexa、百度的DuerOS、Bixby、Cortana、谷歌助理和Siri成为数百万用户不可或缺的帮手。现在人们习惯了语音助理的服务,相同的需求在汽车、电器、可穿戴设备上也越来越多。所有这些设备需要一个功能,在极具挑战性的声学环境下,无论是否有噪音、吵闹的音乐或其他背景声音,都能够理解用户的语音命令。前端语音激活的任务是确保用户的声音到达后端时清晰而易懂,进而它可以被处理和理解。下面来看看它是如何工作的。ZnOednc

033EDNC20180131
为后端获取一个清晰的语音信号ZnOednc

当你说话时你的聆听设备里面发生了什么?很多声音和你的语音一起输入了设备,需要清晰易懂地抵达目标。在目标里的后端处理引擎解释其含义,并且会做出相应的反应。目标可能是一个采用DSP的语音激活设备,一个使用基于云端处理的虚拟助手,或者打电话的另一个人。他们都需要一个干净的音频信号进行理解和响应。一个好的前端解决方案会采用多种技术来净化输入声音,并且提供清晰易懂的语音给后端。ZnOednc

语音激活设备的两个实例是近场和远场拾音。近场设备佩戴(或穿着)时靠近用户的嘴巴,像耳机、耳塞、耳戴式和可穿戴设备。他们通常使用1 到2个麦克风。远场设备可以接收穿过房间的用户声音,通常有3 到 8个麦克风。常见的这类设备有智能音箱、智能家电、语音激活物联网和手机。多个麦克风阵列用来进行波束形成,它通过声音信号抵达不同麦克风的时间差异来估计信号源的方向。这使得该设备可以只接收来自用户方向的声音,而忽略其它音源。波束形成也可以用来跟踪演讲者和从多个声音组合中分离出正确的语音信号,就像在会议室里打电话。ZnOednc

为了得到一个可理解的语音样本,这里有两种类型的声音必须被过滤掉,一个是聆听设备自身产生的声音,另一个是外部声音。当设备产生声音时,例如智能音箱播放音乐或者和另一端的人通电话,可以采用回声消除(AEC)技术忽略自己的声音。这个特性可以“插入”,或打断智能音箱,即使在它处在播放音乐或者响应较早前命令的过程中。一旦这些回声被消除后,噪声抑制算法可以用于清理外部噪声。接下来必须对干净的声音样本进行编码,最后交给后台处理用于语义的理解。ZnOednc

034EDNC20180131
对低功耗的高要求ZnOednc

实现波束形成、回声消除和噪声抑制都需要复杂的算法和大量的信号处理。然而,语音激活技术开始进入最小型化的设备,像紧紧粘在耳朵里的耳戴式设备,解决方案的功耗和成本效益正变得至关重要。电池寿命是耳机、便携式智能音箱、手机和可穿戴设备最关键的因素之一。低功耗特性对于车载娱乐和家庭安全系统来说也是十分重要的。ZnOednc

如果有这么多的工作要做,为什么不把语音信号传输到云端进行处理?云处理在这种情况下并没有帮助。前端处理必须在设备上执行,否则延迟和节能将成为一个问题。因此,前端处理必须极其有效并且不影响质量。为了达到这一目标,需要在软件和硬件上进行高性能和低功耗的优化。ZnOednc

当然,后端处理在某些情况下可能会传送信号到云端。然而,由于越来越多的考虑到增加隐私性、改善安全性、减少延迟和降低功耗,在设备上进行后端处理也被优先采用。ZnOednc

035EDNC20180131
ClearVox系统架构(图片来源于:CEVA)ZnOednc

ClearVox™ 综合前端软件解决方案ZnOednc

在CEVA我们利用多年的经验和音频专业知识来应对这些挑战。ClearVox是一个先进的软件包,为语音启动设备提供增强的语音清晰度,专门针对CEVA-TeakLite-4和CEVA-X2音频/语音DSP进行授权。ClearVox针对整个语音激活和语音交互市场提供语音拾取前端处理方案,从智能音箱,到先进的耳机和物联网设备。ClearVox覆盖近场和远场应用,可以支持最具挑战性的低功耗设备(比如耳戴式设备)以及可以支持用户距离大于10米的高性能的设备。软件包包含多个算法,例如波束形成、波达方向、噪声抑制和回声消除。它通常提供12dB 信噪比提高,改善噪音环境下的语音识别率,支持在播放音乐和快进时插入,可以应用于嵌入式和基于云的语音识别系统中。ZnOednc

20160630000123ZnOednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
  • 从一个二十年前的电路开始,改造面包恒温发酵器 最近,读者John说他需要一种方法来控制发酵面团的温度,我很高兴他可能会考虑将我的TBH电路应用于解决他的问题,但在这种情况下,这确实有点小题大做。因此,我开始思考,是否有一种更简单的拓扑结构可以像TBH电路一样解决他的面团发酵问题,同时节省一些成本和精力···
  • 将锂金属电池寿命提高750%,竟然只需要“水”? 随着新能源汽车、移动设备等领域的快速发展,高性能电池的需求日益旺盛,锂金属作为新一代阳极材料,因具有高能量密度、轻量化等优点,备受关注。然而,锂金属电池所存在的寿命短、易起火或爆炸等问题,限制了其广泛的商业应用···
  • 按下ON还是按住OFF,将这种开关电路升级到交流电 2024年10月14日,Nick Cornford发布了一个名为“按下去再按上来,这种开关有哪些门道?”的设计实例(DI)。对于直流电压来说,这是一个非常有趣的DI,但对于交流电压呢?
  • 加强低功耗FPGA的领先地位 在快速发展的技术领域,从以云端为中心到以网络边缘为中心的创新转变正在重塑数据的处理和利用方式···
  • 用LM337改造,让PWM DAC获得1.5 A输出能力 DAC是一种低功耗设备,其功率和电流输出能力仅限于毫瓦和毫安范围。当然,从根本上讲,它们没有理由不与合适的功率输出级配合使用,这确实也是常见的实际做法。不过,为了好玩,这个设计实例采用了不同的供电方式···
  • 1961年的金色功率音频放大器,挑战当年的技术极限 仔细看看图中的这款功率音频放大器,它可以追溯到1961年···
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了