能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别
这里的语音识别系统接近人类水平了吗。
没错,OpenAI新开发了一个新的语音识别系统,叫做Whisper,据说在英语语音识别上有接近人类水平的鲁棒性和准确率!
不仅如此,不同口音和专业术语的识别效果也是杠杠的!
一经发布,在推特上获得了4800+赞和1000+转发。
网民们对其意想不到的强大功能表示惊讶。
不仅是英语,还有法国诗人波德莱尔的《恶之花》进行了发音测试,得到的文字与原文几乎一致
OpenAI联合创始人amp首席科学家伊利亚·苏茨基弗说:
最后,一个可靠的语音识别系统可以理解我的口音。
前特斯拉人工智能总监Andrej Karpathy甚至转发评论:OpenAI正处于最佳状态。
事不宜迟,我们来看看这个好评如潮的语音系统到底是怎么回事。
接近人类水平的语音识别系统
首先,Whisper最大的特点是它使用的超大训练集:
它使用从互联网收集的680,000小时的多语言和多任务监督数据进行训练。
这就导致了数据集的多样性,涵盖了很多不同的环境,不同的记录设备,不同的语言。
具体来说,65%是英语音频和匹配的英语文本,大约18% 是非英语音频和英语文本,最后17% 是非英语音频和相应的文本。
其中,非英语部分包含98种不同的语言。
可是,尽管音频质量的多样性有助于提高训练模型的鲁棒性,但转录文本质量的多样性并不同样有益。
初步审查表明,原始数据集中存在大量由现有自动语音识别系统生成的不合格的转录本。
可是,以前的研究表明,在人和机器生成的数据集上进行训练会显著损害翻译系统的性能。
为了解决这个问题,研究小组开发了几种自动过滤方法来识别和删除低质量的数据源。
可是,值得一提的是,没有口语内容的片段将被留下作为用于语音活动检测的训练数据。
其次,Whisper架构是一种简单的端到端方法,具体来说就是Transformer的编解码格式。
将输入的音频分成30秒的片段,然后转换成log—Mel声谱图,再传输到编码器。
解码器经过训练,可以预测相应的文本标题,并混合特殊标签,以指示单个模型执行语言识别,多语言语音转录和英语语音翻译等任务。
除此之外,研究人员还为Whisper设置了五种不同的模型下面是每个型号大概的内存需求和相对速度,用户可以自行选择
但需要注意的是,只有大号型号支持多种语言,前四款只支持英语。
不过不用担心,相比其他机型,英文语音识别是Whisper的核心竞争力。
实验结果表明,Whisper在Librispeech测试—clean测试中的错误率为2.7%。
虽然这个数值与Wav2vec 2.0相同,但Whisper在零样本性能上显然更加稳健,平均误差降低了55%。
即使零样本耳语模型也缩小了与人类鲁棒性的差距。
可以看出,与人类ALEC相比,LibriSpeech模型的错误率大约是人类的两倍,而Whisper模型的稳健边界包含Alec的95%置信区间。
研究团队
Whisper的研究团队来自OpenAI,有两位合著者:亚历克·拉德福德和琼·金旭。
OpenAI的机器学习研究员亚历克·拉德福德是indico.io的联合创始人
乔恩·金旭在纽约大学获得了音乐技术博士学位,他的研究兴趣包括多模态深度学习和音乐理解,目前是OpenAI的研究员。
值得一提的是,研究团队指出,虽然Whisper目前没有实时功能,但其运行速度和内存大小表明,在此基础上构建实时语音识别和翻译功能是可行的。
他们希望Whisper的高精度和易用性将允许开发人员为更广泛的应用程序添加语音接口。
文末附有论文和GitHub链接,感兴趣的朋友可以自己拿~
纸质链接:
GitHub链接:
参考链接:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。