人工智能技术发展到今天,智能语音已经成为公认的最重要的人机交互方式之一,是人工智能的核心技术,也是最早在人们的日常生活中得到落地和应用的技术之一,相应的,智能语音整体市场容量也水涨船高。
自2017年陆续有专用的智能语音芯片问世以来,整个离线语音市场的发展似乎一直不愠不火。在一些品类的产品中虽然得到了陆续的试水,但与预期的成为主要的人机交互方式,还存在着很大的距离,似乎离真正的市场爆发前夜,还若即若离。
人工智能新技术落地的前提是成本可以落地。因为在大多数场景真正落地的时候,还是会面临很大的成本压力,特别是对价格极度敏感的消费类产品尤为重要。对广泛的端侧设备来说,算力和存储的两头,一头是成本及背后的市场接受度,另一头则是性能及背后的用户体验。
另一个重要的障碍是可复制性,只有当一种产品成为“标准品”之后,才有可能真正大规模去复制推广和应用。而智能语音本身的特点决定了不同品类、甚至相同品类不同品牌的产品控制命令都需要进行有针对性的定制,这意味着高昂的成本和以周为单位的交付周期,因而毫无疑问会成为阻碍智能语音在很多应用上落地的鸿沟。
要想突破困局,最终还是要依赖于技术的进步。时擎科技与声瀚科技近日联合发布了基于时擎科技AT1611芯片、搭载声瀚科技最新一代本地语音识别引擎的TimesVoice离线语音方案,力图找到离线语音方案性能和成本的最佳平衡点,并有效地解决其标准化可复制的问题。
TimesVoice的目标是在成本可以接受的前提下,追求最好的用户体验,同时无需收集专门的语料,即可支持对自定义命令词的快速定制。从客户需求到形成产品级标准的语音方案,只需要几个小时的时间,几乎做到了“立等可取”,也不需要额外的定制开发费用,大大缩短了设计导入的时间周期和开发成本,让很多品类的设备插上语音的翅膀成为了可能。
时擎科技是一家专注于端侧自然人机交互的芯片公司,致力于为各类端侧应用提供高能效比和高性价比的芯片和解决方案。他们针对端侧应用场景的特点和算法需求,研发了Timesformer系列DSA智能处理器,可以友好高效地支持各类DSP或者神经网络的端侧语音、图像和视觉算法。
声瀚科技则专注于智能语音技术的自主研发与应用,致力于将高端的语音识别技术真正融入到人们的日常生活里。声瀚科技连续数年上榜国内语音识别技术十强榜单,其语音识别方案已经成功进入海尔、美的等国内家电龙头企业的产品中。
AT1611是时擎科技2020年推出的一款端侧智能处理芯片,搭载了其自研的Timesformer Blaster 100智能处理器,具备百GOPS的人工智能算力和多核心的DSP处理能力,同时支持MB级的片上高速SRAM,具有灵活可扩展的DRAM和Nor Flash等丰富的存储资源。时擎和声瀚团队在长达半年多的时间内,组成了技术联合攻关团队,紧密配合,充分发挥了AT1611灵活强大的DSA处理性能和丰富存储资源,成功地将声瀚科技包括了完整的多麦克风前端处理在内的最新一代语音识别引擎无缝落地在AT1611芯片上。
时擎科技AT1611芯片
谈及这次合作研发的过程,时擎科技研发副总裁仇健乐表示,声瀚科技提供的端侧算法和模型之前运行在应用处理器上,得益于时擎特有的DSA处理器和灵活的芯片架构设计,经过双方团队的紧密配合,对运算和存储资源做到了寸土必争、锱铢必较,才让声瀚的算法和时擎的芯片浑然一体,最终在在性价比方面体现出竞争优势。
时擎科技研发副总裁仇健乐
目前,TimesVoice快速定制语音方案已经开始小试牛刀,在短短一个月内,已经完成了电动车、跑步机、按摩椅等多个“非典型”智能语音场景的设计导入,而这些场景的噪音和应用环境各有不同,命令词更是千差万别,在传统的基于语料收集进行训练的方案中,至少需要3个月到6个月的研发时间。
在人工智能行业中,技术和市场很多时候就像一个人的两条腿,不断通过Tick-tock式的迭代演进,我们有理由相信,智能语音技术将会一步一个脚印地,逐步渗透到我们生活的方方面面,真正迎来爆发的那一天,而TimesVoice则可以成为加速器,更好的为市场助力,让这一天早日到来。
责编: Johnson Zhang