Facebook AI 将无监督语音识别的错误率降低了一半以上

2023-06-13 0 749

Facebook AI 将无监督语音识别的错误率降低了一半以上

语音识别,即能够检测口语音素的程序,是计算机科学中一门相当成熟的学科,在过去的二十年里,人工智能已经取得了很大的进步。

该领域在很大程度上依赖于每个音素都明确指出或“标记”的说话人样本库。 这将一些工作限制在语言上,例如英语,在这些语言中样本很容易获得。

Facebook 的人工智能研究人员周五宣布,他们能够通过显着提高所谓的无监督语音识别的错误率来绕过这一限制,在这种情况下,无需任何先前示例即可检测到音素。

他们的工作称为“wav2vec Unsupervised”或“wav2vec-U”,主要作者 Alexei Baevski 及其同事在一篇论文“Unsupervised Speech Recognition”中进行了描述。 还有一篇配套的博客文章。

在流行的 TIMIT 基准测试中,收集了五个小时的语音录音,其中神经网络必须符合将音频文件解析为其组成音素的黄金标准,作者将平均错误率从 26.1 降低到 11.3,就 被猜对的音素百分比。 这比最好的监督程序要好,在那些监督程序中,程序通过明确标有确切音素的音频波形样本得到提示。

在一个更大的基准测试中,Librispeech 有 960 小时的演讲,该程序在预测单词错误率方面的表现远好于许多监督模型,尽管不如最好的监督模型。

对于一些没有专门准备、标记训练数据的语言来说,会有很大的回报。 作者比较了四种非欧洲语言的 wav2vec-u,阿姆哈拉语、斯瓦希里语、吉尔吉斯语、鞑靼语,所有这些语言都是“低资源”。 使用来自四种语言的未标记音频样本,他们的结果表明,在某些情况下,他们甚至可以比使用可用的少量标记数据的基准监督学习程序做得更好。

目前的工作建立在 Baevski 和 Facebook 人工智能部门的同事几年来发表的研究成果的基础上。 Baevski 和他的团队在 2019 年推出了一种方法来预测语音的音频波形形式的下一个序列,他们将这个程序称为“wav2vec”,这是对谷歌先前在自然语言文本处理方面的一项突破,称为“word2vec”。 在这两种情况下,任务都是将某些信号(如文本中的离散信号或音频中的连续信号)转换为可操纵的矢量。

另外:什么是 GPT-3? 您的企业需要了解的有关 OpenAI 突破性人工智能语言程序的一切信息

在 2019 年的工作中,Baevski 及其同事展示了如何及时将音频波形转变为下一个可能的音频波形的预测模型。 诀窍是应用由 Google 的 Transformer 及其后代(如 BERT)广受欢迎的注意力模型。 一个音频波形通过卷积神经网络被放入一个向量中,然后可以与键值系统中的其他波形进行比较,得到波形的概率分布,从而预测波形序列。 这就像使用 Transformer 输出可能的文本。

下一阶段,在 TIMIT 等测试中,将音频波形转换为音素概率。 它实际上是将一种概率分布转换为另一种概率分布,这就是思考它的方式。 在之前的工作中,作者使用他们的 wav2vec 并训练它通过使用注释音频时间的现成音素标签来解决 TIMIT。

在目前的工作中,作者使用没有标签的 wav2vec。 关键是他们添加了一个生成对抗网络,一个 GAN,这个程序已经被用于诸如深度伪造的语音、图像和视频之类的东西。

wav2vec 对给定音频片段的音频概率中断在称为生成器的程序部分中转换为音素的概率分布。 配套的鉴别器程序通过将生成器的输出与一大堆已分解为音素的真实文本进行比较来评估生成器输出的可能性。 来回对抗性挑战改进了生成器的概率计算,因为生成器试图最大化鉴别器给出的分数。

请记住,wav2sec 的半监督版本,从去年开始,称为 wav2sec 2.0,仍然占据 TIMIT 的头把交椅。 具有显式标签仍然为预训练注意力模型(如 wav2sec)提供了优势。 但重点是像 wav2vec 这样的预训练程序总是可以建立的。 Facebook 团队似乎已经建立了一个令人印象深刻的基础,因此随着对抗组件与预训练部分的进一步融合,或者随着其他方法被添加到 wav2vec,wav2vec-u 的结果有望得到改善。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 Facebook AI 将无监督语音识别的错误率降低了一半以上 https://www.7claw.com/57632.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务