百度发布AI同传，有哪些核心技术？-EDN 电子技术设计

 在10月19日的百度大脑行业创新论坛的现场上，出现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时，左右两边的屏幕上实时呈现了中英文字幕，从现场效果来看，语音识别的准确率很高，实时的机器翻译也做得不错，顺利支持了整个演讲。

上个月，由于科大讯飞“AI同传造假”事件，AI同传被推上舆论的风口浪尖。不过，这件事显然并没有影响到AI同传技术的发展。ErSednc

在10月19日的百度大脑行业创新论坛的现场上，出现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时，左右两边的屏幕上实时呈现了中英文字幕，从现场效果来看，语音识别的准确率很高，实时的机器翻译也做得不错，顺利支持了整个演讲。ErSednc

24日下午，百度正式宣布推出了一款人工智能工具，可以实时将英语翻译成中文和德语，以挑战谷歌的竞争产品。ErSednc

百度AI同传核心技术

AI同传的核心技术是语音技术和机器翻译技术，机器同传利用语音识别技术自动识别演讲者的讲话内容，将语音转化为文字，然后调用机器翻译引擎，将文字翻译为目标语言，显示在大屏幕或者通过语音合成播放出来。ErSednc

在机器同传领域，百度联合语音技术、机器翻译技术，从语音识别、翻译质量、时延、融合领域知识等四大方面推出了“一揽子”解决方案。ErSednc

1）高质量语音识别系统ErSednc

百度语音识别是采用的基于Deep Peak 2的中英文混合建模，包1749个上下文无关中文音节和1868个上下文无关英文音节；区别于传统的都采用上下文相关建模，基于Deep Peak 2的中英文混合建模采用的是上下文无关音素组合的建模单元，该建模单元具有数量少、泛化性能好、对噪声鲁棒等特点。具体而言，百度采用如下三个步骤实现上下无关音素建模单元的构建：ErSednc

1、基于“协同发音”的一级切分，发音和听觉领域知识check，刻画“协同发音”导致的音素黏连物理特性；ErSednc

2、基于“统计共现”的二级切分，中文N-Gram的分词方案，同等黏连下等价于中文分词；ErSednc

3、基于数据驱动的“中英文音节”绑定和多发音标注方案，解决“B超”和“必超”、“大地”和“大D”类的问题。在模型结构方面，我们采用底层CNN+多层LSTM+一层DNN的模型结构，并且采用CTC作为优化准则。该方案很好的解决了实际场景中遇到的中英文混合场景，同时能够保持中文性能不降低，在国际化沟通日益频繁引入的中文中混合有部分英文短语的场景得到良好解决。ErSednc

028ednc20181025 ErSednc

据了解，目前，语音识别技术已经基本成熟，各家的语音识别能力相差不大。AI同传的技术难点在于机器翻译如何实现实时翻译，以及当语音识别出现错误时，机器翻译如何能够容错。ErSednc

人工智能领域，两种语言的“即时互译”是一项难以攻克的技术问题，其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。百度研发了具备预测能力和可控延迟的即时机器翻译系统，可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破，将对机器即时笔译和口译的发展起到极大地推动作用。ErSednc

2）高鲁棒性翻译模型ErSednc

百度提出了“语音容错”的对抗训练翻译模型，大幅提高了翻译系统的鲁棒性。一般的翻译模型训练，数据质量越高越好。百度提出的模型反其道而行之，根据语音识别模型常犯的错误，在训练数据中有针对性的加入噪声数据，使得模型在接受到错误的语音识别结果时，也能够在译文中纠正过来。ErSednc

与传统的方法“伪造”噪音数据不同，百度模型的创新之处在于针对语音识别系统易犯的错误产生噪声数据。比如，语音识别系统将“大堂”错误的识别为“大唐”，那么这就作为一对噪声词放到训练数据中，将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”，而保持目标语言翻译不变“Let's meet at the lobby of the hotel.”。并将这两个句子同时用于训练。这样得到的模型对于语音识别具有更强的容错能力。实验结果表明，在中英方向上，该模型甚至达到与正确文本（意味着由语音识别造成的错误基本被修正相媲美的效果。ErSednc

3）质量与时延的平衡ErSednc

为了降低时延，人类译员通常对演讲内容进行合理预测。百度团队借鉴人类同声传译员的灵感来应对这一挑战。然而，与人类译员不同，该模型并不预测说话人讲话中的源语言单词，而是直接预测翻译中的目标语言单词，更重要的是，它把翻译和预测融合在一个统一的“wait-k words”模型中。在这个模型中，在等待讲话者开始后的第K个字，就开始翻译。模型在每个步骤使用源语句的可用前缀（以及到目前为止的翻译）来决定翻译中的下一个单词。在上述例子中，考虑到汉语前缀“布什总统在莫斯科”和迄今为止的英译“President Bush”在汉语后面k=2个词，系统精确地预测下一个翻译词是“会见”。在演讲者还没有说出汉语动词之前，系统预测到布什很可能在莫斯科“遇见”某人（例如普京）。正如人类口译员需要事先熟悉说话者的话题和风格一样，该模型也需要从大量的训练数据中进行训练，这些训练数据具有相似的句子结构，以便以合理的准确性进行预测。ErSednc

该模型一个显著的优点是其具有可调节性，达到质量和时延的平衡。用户可根据需要指定所需的延迟时间（比如，延迟一词或延迟五词）。如果是法语和西班牙语这种比较接近的语言，延迟可设置在比较低的水平，因为就算是逐词翻译的效果也很好。但是，对于英语和汉语这种差异较大的语言，以及英语和德语这种词序不同的语言，延迟应当设置高一点，以获得更高的翻译质量。ErSednc

4）融合领域知识ErSednc

人类同传译员在接到一个同传任务时，都会做大量的功课，掌握所译领域的术语词汇、表达方式等。然而留给同传译员准备的时间却很有限，一般仅有几天的时间，在一些术语量大、晦涩难懂的领域，对人类译员是一个极大的挑战。ErSednc

与人类同传准备过程类似，如果能将所译领域的资料提前教给自动同传系统，那么整体的翻译质量将有非常大的提高。模仿人类同传的准备过程，百度提出了快速融合领域知识策略。ErSednc

029ednc20181025 ErSednc

该策略原理如下：依托百度海量的互联网大数据，首先训练得到通用的翻译模型，该模型具有通用的翻译能力；进一步的，如果接到某一个领域的同传翻译任务，该系统收集领域数据并在通用模型的基础上进行增强训练，得到领域增强模型，在该领域翻译质量上超过通用模型；最后，将该领域术语库加到解码过程进行强制解码，使得术语翻译准确可靠。在多个领域的实验表明，领域优化后的系统可以稳定的获得6个百分点以上的BLEU值提升。（BLEU值是机器翻译领域国际通用评估指标，通常1个百分点的提升即被认为是显著提升）。ErSednc

该方法模拟人类同传准备过程，且优势明显，准备过程短，只需要将领域数据在通用模型基础上进行训练，数小时即可得到优化后的模型，术语词典生效时间更是缩小到秒级，大大提升了效率。ErSednc

030ednc20181025 ErSednc

AI同传与人工同传共存

在百度看来，在未来多年里，机器和人类即时翻译员将同时并存。人类翻译员的专业服务仍将存在大量需求，特别是需要连贯、精准翻译的高端场合。即时翻译的需求很高，但人类翻译员却十分紧俏。因此机器的介入，能让即时翻译服务更加普及。该技术可打开实现会议即时翻译、隐藏字幕等多种应用的大门，在即将到来的百度世界大会上也将现场展示。ErSednc

目前的技术，机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合，必须依靠人类同传高质量、专业的翻译完成。现阶段，机器同传可以作为人类同传的辅助手段或者有效补充，例如有大量的会议，聘请专业同传费用太高或者没有相关领域的同传译员，此时可以借助于机器同传完成。会议举办方、演讲者、听众充分认识到机器同传的优势和局限性，容忍机器犯错，就可以达成共识，促进交流。ErSednc

（节选自雷锋网，作者李诗）ErSednc

每当有一种功能的机器投入使用，就会有相应职业的人事业

阅读全文，请先

上一篇： 匠·见初心，一家国内测试测量厂商的二十年工匠之旅 下一篇： 马化腾提问哪些基础科学突破会影响未来互联网，网友们这样回答

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

百度发布AI同传，有哪些核心技术？

百度AI同传核心技术

AI同传与人工同传共存