采访尼古拉斯-鲁伊斯

访谈:尼古拉斯-鲁伊斯,博士。语音翻译和自然语言处理研究员兼Waverly Labs 语音翻译顾问。

您在Waverly Labs 做什么?

我对当前语音识别和机器翻译的趋势发表了见解,并就如何最好地将一种语言翻译成另一种语言提出了策略建议。

首先,您是何时以及如何决定成为一名语音翻译研究员的?

2001 年左右,我在本科阶段同时学习计算机科学和外语课程。这让我开始思考:"如果可以教人学习外语的规则,那么是否也可以教计算机学习外语呢?在欧洲攻读硕士和博士学位期间,随着我在机器翻译领域的研究逐渐成熟,我开始挑战自己,不仅在实验室里,而且在日常生活中都沉浸在语音翻译的问题中。我参加过意大利语演讲和活动,观察过非官方口译员如何努力将演讲者的话翻译成英语,以帮助一群留学生跟上演讲。有一半的时间,我并没有在听演讲者讲话,相反,我的脑子里一直在思考,在其他人学会了足够的语言,可以在没有帮助的情况下进行交流之前,语言翻译如何帮助他们理解和参与日常对话。

世界准备好进行语音翻译了吗?

现在,语音识别和机器翻译已经可以应对许多过去需要口译员的对话场景。在许多语言中,语音识别系统能够识别人们所说单词的 90% 以上,英语和西班牙语等语言对的准确率也达到了历史新高。虽然机器翻译偶尔听起来会有些滑稽,但这项技术已经发展到两个对话伙伴都能很好地理解对方在说什么的地步。机器翻译技术无法完全取代对翻译精确度要求极高的高风险翻译场景,但它能满足专业翻译或人工口译并非首选的大量需求。此外,研究表明,当今的机器翻译可以帮助专业翻译人员更快地工作,这为专业翻译人员和机器翻译技术的合作开辟了新的,也许是意想不到的可能性。

语音翻译是如何工作的?

语音翻译由三部分组成,即自动语音识别(或有些人所说的 "语音识别")、机器翻译语音合成,通常分三步完成。自动语音识别从麦克风中获取声音,并将其转录为单词。然后使用统计机器翻译或新近流行的神经机器翻译技术将这些单词翻译成另一种语言。然后,语音合成器将翻译后的单词转换成模仿母语人士说话方式的声音。

统计机器翻译和神经机器翻译有什么区别?

简而言之,统计机器翻译试图学习短语或词组的翻译模式。翻译规则是从大量翻译成另一种语言的句子中自动学习的。例如,规则可以是 "my blue car" => "mi coche azul",或者 "blue car" => "coche azul"。每条规则都会得到若干分数,以预测该翻译被使用的可能性。翻译系统会尝试通过排列(或 "重新排序")词组,最大限度地提高译文的流畅度,从而将多条规则结合起来,用目标语言生成译文。这些规则可能类似于人们在访问另一个国家时使用的短语手册,但一个典型的翻译系统拥有数以亿计的自动学习的翻译规则。这些翻译系统大多使用 "编码器-解码器 "模型。如果我们考虑将英语翻译成西班牙语,"编码器 "会将每个英语单词转换成一串数字向量,而 "解码器 "则从每个向量中提取信息,生成一个又一个西班牙语单词。注意力模型 "对每个向量进行加权,以决定英语句子中哪些编码部分对生成下一个翻译单词有用。与统计机器翻译不同,我们很难理解神经机器翻译系统是如何做出翻译决定的;但在许多情况下,神经机器翻译能产生更流畅的译文。

Pilot 如何实现会话语音翻译?

如前所述,语音翻译的第一步是语音识别。自动语音识别的挑战之一是获得高质量的录音,减少音频中的噪音。嘈杂的音频会混淆语音识别系统。如果语音识别器无法准确识别你所说的单词,那么翻译出来的结果很可能是无意义的。虽然有一些远场识别设备可以让你在房间的另一头说话,但麦克风和说话者之间的距离会让其他噪音干扰信号,从而增加语音识别的难度。但当麦克风离扬声器越来越近时,录制的音频质量更高,噪音更少。蓝牙耳麦最初是为了让人们在没有电线的情况下通话,同时保持高质量。Pilot比大多数蓝牙耳机更先进,它使用环境噪音消除技术,并具有麦克风阵列配置,可最大限度地提高音频质量。Pilot 的目标是提供自然的免提通话体验,并以语音翻译技术为后盾,最大限度地减少跨语言交流中的挫折感。通过与朋友共用一个听筒,您只需使用一个翻译工具包就可以进行多语言对话。我们专门将Pilot 设计为翻译听筒,不仅通过麦克风位置提高了语音识别的准确性,还保持了流畅自然的人际交流。

语音翻译

尼古拉斯-鲁伊斯

敬请期待!

-韦弗利团队

查看更多