随着虚拟助手变得更加智能,我们对它们的期望越来越高。随着简单的语音命令彻底步入实用,深度学习正在实现更复杂的交互,如情境对话和情感检测。笔者在之前的专栏文章中回顾了当前流行的语音接口的缺点和功能欠缺。但是这些问题正走向消失的边缘。本文将会展望未来的语音接口及其技术实现。
图1 电视剧《西部世界》(Westworld)中的一个机器人(来源:HBO)
语音优先的用户接口(UI)需要做到始终监听。这对使用小电池供电的小型便携式设备来说是一个挑战——每微瓦电能都宝贵。在这方面一个有趣的发展是使用压电从声波产生电能。专门研究这项技术的Vesper公司最近为压电MEMS麦克风的研发筹集了1,500万美元。此外,在早前的CES 2017上,Vesper和DSP Group展示了面向电池供电设备的准零功耗语音激活技术。其解决方案在环境安静时,利用压电特性来保持系统处于低功耗声音唤醒模式。该平台使用DBMD4始终在线式语音和音频处理器实现了比现有方法低5倍的功耗(根据该公司数据)。
这项技术可能成为真正的始终监听接口的解决方案,适用于即使是最小的电池供电设备,如Apple的AirPod(目前需要通过敲击来操作Siri)。可以从这项技术获益的另一个设备是Amazon Echo Tap。Tap最近实现了软件升级,能够始终监听,但升级导致待机时间从三周缩短至约八小时。使用上述方法,待机时间可以增加到几个月!随着未来的压电技术改进,像Tap这样的设备的待机时间有可能达到数年。
图2 微型VM1010压电MEMS麦克风可以在准零功耗下实现声音唤醒(来源:Vesper)
对于整体UI,机器还必须能够彼此通信,以及与人类进行通信。为了避免被限制在每个服务提供商的封闭生态系统(称为“围墙花园”)中,设备之间应具有一个统一的通信协议,类似于智能手机应用的深度链接。这个问题的一个解决方案可以是让设备通过不可闻的超声波音频进行通信,就像LISNR提供的技术。该解决方案使用音频波传输可定制数据包,在启用的设备上实现近距离数据传输、第二屏幕功能、身份验证和设备到设备连接功能。
语音接口期望的另一个特性是用户个性化。每个人都有独特的声音特征,这被称为“声纹”。通过声纹识别每个用户的技能是语音接口的巨大进步。它可通过了解每个用户经常使用哪些服务、喜欢的音乐等等,为每个用户提供个性化体验。例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问“我每天的日程安排是什么?”,然后只收到你自己的约定。声纹也可以用于生物特征识别,确保信用卡购买只能由持卡人或其他授权用户进行。
图3 情感检测和生物特征识别是你的虚拟助手很快就能获得的技能(来源:CEVA)
有传言说Amazon的Alexa很快就会具备这样的技能;然而,与此同时,不同用户之间的切换只能通过语音进行,而不能进行身份验证。Google Home同样如此,但是Google Pixel手机上的“语音助手”具备“可信语音”功能。这使用户可以通过说“Ok,Google”来解锁手机。这表明这项技术已经应用。下一步是将其适当地集成在具有远程语音拾取功能的设备中,来为多个用户提供服务。实现这一点的主要障碍是在语音识别之前处理语音输入时引入的失真,如“
Why Amazon Echo And Google Home Can’t Tell Who’s Talking–Yet”(为什么语音助手还无法分辨谁在说话)一文所述。
在我最近回顾语音接口背后的技术的专栏文章“Is 2017 the year of the voice interface?”(2017年会是语音接口之年吗?)中,介绍了一些用于清除语音命令中噪声和回声的算法。这些算法执行之后才会将数据发送到通常位于云端的自动语音识别(ASR)引擎。这一清除过程往往会去除构成声纹的独特标记。结果是,发送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。在这种情况下,执行边缘分析,也就是在设备上而不是云端处理语音可以解决问题。与针对视频分析的边缘处理一样,与基于云的处理相比,高效的边缘解决方案可以改进隐私保护,提高安全性,提升速度并降低成本。
虚拟助手的下一个挑战会是利用深度学习的能力来建立类似人类的记忆技能。这将使虚拟助手在对话时能像人与人之间自然交流一样。这包括在上下文中引用事物的能力,例如我们来考虑下以下对话:
人类:“你记得我上个月说要你订购进口啤酒来举办我妻子的生日聚会吗?”
机器:“记得,是科罗娜黑啤,你要我再订一包六罐装吗?”
人类:“给我订两包六罐装吧。”
机器:“好了,两包六罐装科罗娜黑啤已经订购。”
对两个人来说,这种交流简单而微不足道。但是为了让机器理解所说的是什么啤酒,它必须记住上一个订单的上下文。这需要以智能的方式组合不同领域的知识(订单历史、家庭成员、日历场合)以正确理解要求。另外,请注意:在上述情景下,即使在没有明确的请求时,机器也可以理解需要它来协助,而现在的设备则还需要明确的请求。
使用卷积深度神经网络(DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。从为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的DNN使机器有可能达到能实现这些目标的智能水平。
我们与机器对话时,会立即注意到有些信息会丢失。除了我们所说的实际话语外,我们在说话时还有特定的方式。当你和另一个人谈话时,你希望他能够体会言外之意——感受你的语气和心情,并且明白你的意思,而不一定是你说的话。这将我们带入了情感检测或情感分析领域。像Beyond Verbal等公司专门分析来自声乐语调的情绪,使声音驱动设备和应用能够在情感层面与用户进行交互。
同样,视频分析被用来破译面部表情,用于情感检测。这里再次利用深度学习来研究庞大的面孔数据库,并学习如何判断对象表达的情感。一旦视觉也集成到虚拟助手中,它们就可以更好地理解我们的意图(例如,用户是否在指示机器,即使没有明确地使用触发词),你也可以向它们表达情绪,使用手势以及声音进行沟通。面部识别、情绪检测、类人记忆和情境感知的结合将带来人机交互的全新时代。
当然,支持视觉的虚拟助手将进一步提升对个人隐私的担忧。这些担忧中的一些可能会得到缓解:通过更加智能的边缘设备和使用“本地雾端”而不是将数据发送到云端进行处理。通过最大限度地减少云端支持,用户还能体验到手持设备更快的响应速度和更长的电池续航时间。
支持语音的设备不断激发有关隐私和个人界限的伦理辩论。当它们变得更加智能、更加无处不在时,会发生什么?当它们获得视觉和情绪感知的新技能时,会发生什么?它们会突然达到一个临界点,像《西部世界》中的人物一样获得类似人类的意识和情感吗?如果是这样,会以充满激情的暴力爆发结束吗?还是它们会变得非常聪明,与我们一起感到厌倦,深情地与我们分开,因为它们具备了奇异性,像萨曼莎《她》?无论如何,等待我们的一定是个有趣的时代。