上个月,由于科大讯飞“AI同传造假”事件,AI同传被推上舆论的风口浪尖。不过,这件事显然并没有影响到AI同传技术的发展。
在10月19日的百度大脑行业创新论坛的现场上,出现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时,左右两边的屏幕上实时呈现了中英文字幕,从现场效果来看,语音识别的准确率很高,实时的机器翻译也做得不错,顺利支持了整个演讲。
24日下午,百度正式宣布推出了一款人工智能工具,可以实时将英语翻译成中文和德语,以挑战谷歌的竞争产品。
AI同传的核心技术是语音技术和机器翻译技术,机器同传利用语音识别技术自动识别演讲者的讲话内容,将语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成播放出来。
在机器同传领域,百度联合语音技术、机器翻译技术,从语音识别、翻译质量、时延、融合领域知识等四大方面推出了“一揽子”解决方案。
1) 高质量语音识别系统
百度语音识别是采用的基于Deep Peak 2的中英文混合建模,包1749个上下文无关中文音节和1868个上下文无关英文音节;区别于传统的都采用上下文相关建模,基于Deep Peak 2的中英文混合建模采用的是上下文无关音素组合的建模单元,该建模单元具有数量少、泛化性能好、对噪声鲁棒等特点。具体而言,百度采用如下三个步骤实现上下无关音素建模单元的构建:
1、基于“协同发音”的一级切分,发音和听觉领域知识check,刻画“协同发音”导致的音素黏连物理特性;
2、基于“统计共现”的二级切分,中文N-Gram的分词方案,同等黏连下等价于中文分词;
3、基于数据驱动的“中英文音节”绑定和多发音标注方案,解决“B超”和“必超”、“大地”和“大D”类的问题。在模型结构方面,我们采用底层CNN+多层LSTM+一层DNN的模型结构,并且采用CTC作为优化准则。该方案很好的解决了实际场景中遇到的中英文混合场景,同时能够保持中文性能不降低,在国际化沟通日益频繁引入的中文中混合有部分英文短语的场景得到良好解决。
据了解,目前,语音识别技术已经基本成熟,各家的语音识别能力相差不大。AI同传的技术难点在于机器翻译如何实现实时翻译,以及当语音识别出现错误时,机器翻译如何能够容错。
人工智能领域,两种语言的“即时互译”是一项难以攻克的技术问题,其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。百度研发了具备预测能力和可控延迟的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大地推动作用。
2) 高鲁棒性翻译模型
百度提出了“语音容错”的对抗训练翻译模型,大幅提高了翻译系统的鲁棒性。一般的翻译模型训练,数据质量越高越好。百度提出的模型反其道而行之,根据语音识别模型常犯的错误,在训练数据中有针对性的加入噪声数据,使得模型在接受到错误的语音识别结果时,也能够在译文中纠正过来。
与传统的方法“伪造”噪音数据不同,百度模型的创新之处在于针对语音识别系统易犯的错误产生噪声数据。比如,语音识别系统将“大堂”错误的识别为“大唐”,那么这就作为一对噪声词放到训练数据中,将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel.”。并将这两个句子同时用于训练。这样得到的模型对于语音识别具有更强的容错能力。 实验结果表明,在中英方向上,该模型甚至达到与正确文本(意味着由语音识别造成的错误基本被修正相媲美的效果。
3) 质量与时延的平衡
为了降低时延,人类译员通常对演讲内容进行合理预测。百度团队借鉴人类同声传译员的灵感来应对这一挑战。然而,与人类译员不同,该模型并不预测说话人讲话中的源语言单词,而是直接预测翻译中的目标语言单词,更重要的是,它把翻译和预测融合在一个统一的“wait-k words”模型中。在这个模型中,在等待讲话者开始后的第K个字,就开始翻译。模型在每个步骤使用源语句的可用前缀(以及到目前为止的翻译)来决定翻译中的下一个单词。在上述例子中,考虑到汉语前缀“布什总统在莫斯科”和迄今为止的英译“President Bush”在汉语后面k=2个词,系统精确地预测下一个翻译词是“会见”。在演讲者还没有说出汉语动词之前,系统预测到布什很可能在莫斯科“遇见”某人(例如普京)。正如人类口译员需要事先熟悉说话者的话题和风格一样,该模型也需要从大量的训练数据中进行训练,这些训练数据具有相似的句子结构,以便以合理的准确性进行预测。
该模型一个显著的优点是其具有可调节性,达到质量和时延的平衡。用户可根据需要指定所需的延迟时间(比如,延迟一词或延迟五词)。如果是法语和西班牙语这种比较接近的语言,延迟可设置在比较低的水平,因为就算是逐词翻译的效果也很好。但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置高一点,以获得更高的翻译质量。
4) 融合领域知识
人类同传译员在接到一个同传任务时,都会做大量的功课,掌握所译领域的术语词汇、表达方式等。然而留给同传译员准备的时间却很有限,一般仅有几天的时间,在一些术语量大、晦涩难懂的领域,对人类译员是一个极大的挑战。
与人类同传准备过程类似,如果能将所译领域的资料提前教给自动同传系统,那么整体的翻译质量将有非常大的提高。模仿人类同传的准备过程,百度提出了快速融合领域知识策略。
该策略原理如下:依托百度海量的互联网大数据,首先训练得到通用的翻译模型,该模型具有通用的翻译能力;进一步的,如果接到某一个领域的同传翻译任务,该系统收集领域数据并在通用模型的基础上进行增强训练,得到领域增强模型,在该领域翻译质量上超过通用模型;最后,将该领域术语库加到解码过程进行强制解码,使得术语翻译准确可靠。在多个领域的实验表明,领域优化后的系统可以稳定的获得6个百分点以上的BLEU值提升。(BLEU值是机器翻译领域国际通用评估指标,通常1个百分点的提升即被认为是显著提升)。
该方法模拟人类同传准备过程,且优势明显, 准备过程短,只需要将领域数据在通用模型基础上进行训练,数小时即可得到优化后的模型,术语词典生效时间更是缩小到秒级,大大提升了效率。
在百度看来,在未来多年里,机器和人类即时翻译员将同时并存。人类翻译员的专业服务仍将存在大量需求,特别是需要连贯、精准翻译的高端场合。即时翻译的需求很高,但人类翻译员却十分紧俏。因此机器的介入,能让即时翻译服务更加普及。该技术可打开实现会议即时翻译、隐藏字幕等多种应用的大门,在即将到来的百度世界大会上也将现场展示。
目前的技术,机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合,必须依靠人类同传高质量、专业的翻译完成。现阶段,机器同传可以作为人类同传的辅助手段或者有效补充,例如有大量的会议,聘请专业同传费用太高或者没有相关领域的同传译员,此时可以借助于机器同传完成。会议举办方、演讲者、听众充分认识到机器同传的优势和局限性,容忍机器犯错,就可以达成共识,促进交流。
(节选自雷锋网,作者李诗)