在EDN“传感器设计中心”栏目下,我们花了很多时间去寻找新的并且有趣的传感技术和方法,最终不负众望找到一个:VocalZoom公司是一家以色列的初创公司,该公司发明了一种将人的声音通过光学转换成数字信号的方法,奇怪的是这种方法在有很大环境噪声的条件下反而能实现更高的准确度。
这就使得这种方法非常适合紧急服务通信以及许多初始目标应用,如消费类汽车、耳机、智能手机、安防等任何你能想象得到的语音识别应用。
目前基于语音的人机通信(HMC)系统的问题在于,它们是针对人类而非机器做的优化。这些系统使用的声学麦克风会检测所有的声音,然后我们要花宝贵的人力和时间去实现复杂的消噪算法,滤除背景噪声,并优化再现人类可理解的自然、愉悦的声音。
对于电话交谈而言,这种方法是很有效的,因为人类具有一个很好的优势:在高噪声环境中我们可以借助语境和经验几乎下意识地填补错失的字词。而机器需要区分每一个字词才能做出预期的动作。由于背景噪声而引起的误差是不可容忍的,因此这种情况下机器要么执行错误的功能,要么请求重复下达指令。
虽然人比机器有优势,但对于人和机器来说,背景噪声增加都会降低他们的理解能力和命中率,进而导致令人沮丧的电话交谈或错误的语音命令(图1)。
图1:在行驶的汽车中,如果车窗打开,音响开着,那么语音命令的命中率通常会降到0。VocalZoom公司声称其HMC传感器在相同环境下可以保持90%以上的命中率。
“每个人都想要语音(识别、命令和控制功能),但关键挑战在于背景噪声和环境的不可预测性。”VocalZoom公司销售与业务开发部副总裁Rammy Bahalul表示。同时他指出,虽然语音识别软件可以针对口音和其它言语模式进行训练,“但无法针对背景噪声进行训练。”
为了将语音从环境中彻底分离出来,VocalZoom转而对其HMC传感器采用了一种低成本、低功耗的干涉测量原理实现方式。这种传感器使用激光测量由说话直接引起的脸部表面或耳朵背后的微弱振动。
在军用系统中干涉法检测振动的成本通常都要数千甚至达百万美元,它通过检测源和反射波之间的相位差可以在长达1英里或以上的范围内检测出纳米级的微弱振动。典型的“间谍”应用包括通过测量窗户振动来窃听谈话。
VocalZoom公司通过牺牲距离(降至1米)将干涉法的成本降低到了一个更可接受的、对消费者友好的水平,并使用了对用户安全的、可以直接照射到脸上来检测振动的一类VCSEL激光。振动会调制反射光束的相位,嵌入在定制ASIC中的算法可通过I2S接口提供最终输出(图2)。
图2:HMC传感器使用了更加简单的专利干涉技术和可以直接照射人脸的一类VCSEL激光。振动将调制反射光束的相位,嵌入在定制ASIC中的算法可通过I2S接口提供最终输出。
人们所说的话直接来自脸部:诸如狗叫、其它人声、汽车和警笛等环境声音都不会被检测到。
有悖于常理的是,当环境噪声增加时,准确度确实更高。在一个典型的语音识别系统中,安静环境中的典型命中率是80%,也即误差率是20%。然而,一旦这种系统拿到街上,单词的命中率可能降低到60%,句子则更糟糕。据Bahalul透露,VocalZoom的技术可以将命中率保持在90%至97%。
VocalZoom技术背后的原理是伦巴效应,就是当环境噪声增加时,我们会出于条件反射而提高我们说话的声音,从而增加面部振动。在这种情况下,由于背景声音还是检测不到的,但用户脸部振动水平提高了,因此相当于提高了信噪比。
这对紧急服务应用来说具有巨大的好处,因为在这种场合下,警笛、射击、结构件破裂、呐喊和其它噪声会淹没人们说话的声音。
据Bahalul透露,一位潜在用户将VocalZoom的技术放在具有120spl(声压等级)噪声的声学室内与声学麦克风进行比较。“声学麦克风已经饱和了,但我们的光学传感器获得的语音却非常清晰。”他表示。
这种系统的优点除了更舒适的手机通话、更准确和响应更连贯的语音命令与机器控制外还有很多(图3)。它还可以用于接近检测以及测量心率。另外,由于每个人的语音和相应的面部振动有其独特性,所以还可以用于生物安全目的。
图3:VocalZoom技术的应用除了语音识别、命令和控制外,还可扩展到接近检测和生物领域。
“这将改变人们与机器交谈的方式。”Bahalul表示,这强调了其基本应用。然而他还指出,它可以替代智能手机中价格从10美元至20美元的传感元件,包括接近检测、语音识别和生物识别——并天生具有“生命证据”特性——同时还能提供更好的噪声抑制,并通过语音触发节省电能。
HMC传感器本身的功耗只是毫瓦(mw)数量级,而成本只有“几个美元”,Bahalul指出。激光器的价格大约是1美元,ASIC不到1美元。第一款原型系统应该在今年第三季度推出,Bahalul希望在2017年初交付第一批产品。
VocalZoom公司正在与大多数的语音识别软件系统和耳机制造商开展合作,并且在研发汽车后视镜集成方法,同时正在与那些对整合VocalZoom技术与经典声学音频有兴趣的MEMS制造商进行合作。
VocalZoom公司有望在短期内将这种技术的距离延长到2米,同时采用多个激光器来采样面部的不同位置,以便优化比如用户脸部被胡子或围巾部分覆盖情况下的性能。