并行翻译的技术难点是如何组成连贯语句
,在WMT2021国际机器翻译大赛上,字节跳动火山翻译团队以并行翻译系统参赛,获得德语到英语方向机器翻译比赛自动评估第一名并行翻译在国际大赛首次亮相,就成功击败了从左向右逐词翻译的自回归模型技术,打破后者在机器翻译领域的绝对统治地位
根据消息显示,WMT2021是由国际计算语言学协会ACL举办的世界顶级机器翻译比赛,德英语向是该赛事竞争最激烈的大语种项目之一。
火山翻译团队负责人介绍说,自回归模型更接近人类阅读习惯,逐词按顺序生成翻译,每一个输出的词都依赖于之前的词,当输出文本较长或者模型比较复杂时,机器翻译的速度很慢,并行翻译则是由机器同步输出所有的词,可以充分利用并行计算,将翻译速度提高数十倍句子越长,速度提升越明显
并行翻译的技术难点是如何组成连贯语句对此,火山翻译团队采用了一项创新的渐进学习方式,由简单到复杂,由片段到整句训练并行翻译模型在保持极高翻译速度的同时,并行翻译的质量显著提升
火山翻译团队负责人坦言,在训练数据量小的场景下,并行翻译的质量相比传统技术处于劣势但是当训练数据规模变大后,并行翻译会逐渐缩小差距,甚至反超传统技术目前并行翻译技术已应用在火山翻译产品中,用以支持字节跳动的部分业务
在去年的WMT2020比赛中,火山翻译获得中英,德英,德法等5个语向翻译冠军,今年以全新技术夺魁更是一次重要的突破据介绍,火山翻译已支持50多个语种,近3000个语向的翻译,不仅应用在飞书,今日头条等字节跳动旗下产品,也通过火山引擎向企业客户提供技术服务
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。