请打开吊舱舱门,HAL:Meta 的 AI 模拟唇读

2023-05-23 0 577

请打开吊舱舱门,HAL:Meta 的 AI 模拟唇读

众所周知,人们不仅通过耳朵聆听,而且还通过观察说话者的嘴部动作来获取线索,从而听到讲话。

同样,将视觉观察与音频相结合可以帮助计算机更好地解析人类语音。 从某种意义上说,计算机程序可以读唇语,尽管这对工程师来说是一项艰巨的任务。

Meta 是 Facebook、Instagram 和 WhatsApp 的母公司,其最近的 AI 工作提出了一条更有效的途径,让计算机可以像 David Bowman 博士和 Frank Poole 博士试图逃避其音频时的 HAL 9000 一样读唇语。 电影《2001》中吊舱内的传感器。

上周五,Meta 的人工智能科学家发布了一份研究报告,在报告中,他们能够显着减少设计软件来解析录制视频中说话者嘴唇运动的词语所需的工作量。 这项工作还能够使用唇读技术有意义地改善噪声环境中的语音识别。

该程序“比最好的视听语音识别系统(它使用说话者的声音和图像来理解人在说什么)准确 75%”,作者说。

当然,这里有一个 Metaverse 的角度:该程序不仅可以用于即时翻译,有朝一日,它还可以“帮助在虚拟现实化身中产生逼真的嘴唇运动,以传递真正的存在感——那种感觉 与某人在一起,即使他们在世界的另一端。”

这项工作代表了两条路线的进步。 一种是自我监督学习,它避开特定的线索,例如文本抄本,而是让程序自发地在数据中神圣化结构。 另一个发展领域是所谓的多模式神经网络,它以一种相互加强的方式组合不同类型的数据。

结果称为 AV-HuBERT,“AV”代表视听,“Hu”代表“隐藏单元”,结合听觉和视觉信号来检测嘴唇运动中的单词。

主要作者 Bowen Shi 和来自 Facebook 的同事 Wei-Ning Hsu、Kushal Lakhotia 和 Abdelrahman Mohamed 上周五在 arXiv 预印本服务器上发布了他们的论文“通过掩蔽多模态集群预测学习视听语音表示”。 作者还写了一篇博文,您可能会发现它更容易理解。

正如 Shi & Co. 解释的那样,之前的工作也是多模态的,将视觉数据、视频帧与音频数据、波形片段结合起来,以训练神经网络来预测它们如何匹配。

但此类程序往往依赖于某种额外的、准备好的线索,例如将演讲者的视频转录成文本句子,然后用作标签。 新作品走的是自我监督的路线,在没有外部结构的情况下自发地组合模式。

“这是第一个根据未标记数据——尚未转录的原始视频——联合建模语音和嘴唇运动的系统,”作者在他们的博客文章中写道。

许多先前的模型都使用词级注释的唇读视频,”进行训练,“收集这些视频的成本很高,因为它们需要词边界信息。 与这些模型相比,我们的模型是使用所提出的方法从头开始进行完全预训练的。

他们发明的 AV-HuBERT 程序建立在 Hsu 及其同事去年推出的名为 HuBERT 的纯音频程序的基础上。 顾名思义,HuBERT 使用的是 2018 年谷歌开发的双向 Transformer 神经网络方法。

通过“屏蔽”音频记录的部分,即省略音频波形的部分,HuBERT 神经网络在其训练阶段必须重建哪些音频片段相互配合。

现在,在 AV-HuBERT 中,Shi 和团队将音频位与人们说话的视频帧“融合”在一起。 神经网络的训练阶段基本上分两个阶段进行。 首先,与最初的纯音频 HuBERT 一样,他们使用注意力方法来屏蔽音频,然后将这些音频波形分组到集群中,这些集群的样本在某种程度上在它们的属性上彼此接近。

这些分组随后成为神经网络第二阶段的目标。 AV-HuBERT 的多模式部分同时屏蔽了说话者嘴唇的图像和音频波形,然后尝试将它们与第一波中建立的集群相匹配。 通过这种方式,程序计算出哪些嘴唇配置对应于哪些音频波形,从而“学习”嘴部运动和音频输出的相关性。

也就是说,实际上,这是一种自我监督的方法,可以在没有明确线索的情况下预测结构。

融合意味着将注意力放在图像帧上和放在音频波形上的注意力会相互加强,从而产生比单独使用任何一个都更好的集群。 这些集群成为后续任务的“目标”,例如唇读和语音识别。

正如作者所解释的那样,

AV-HuBERT 同时从嘴唇运动和音频流中捕获未屏蔽区域的语言和语音信息到其潜在表示中,然后编码它们的长期时间关系以解决屏蔽预测任务。

一旦 AV-HuBERT 以这种方式进行了自我训练,作者就会通过引入实际标记的视频(数小时)以及告诉机器单词在视频中的位置的正式成绩单来进行微调。

用于测试和训练 AV-HuBERT 程序的主要数据集是 LRS3,由牛津大学的 Triantafyllos Afouras 及其同事于 2018 年开发,这是“迄今为止最大的公开可用的句子级唇读数据集。它包含 400 多个小时 视频,摘自 YouTube 上的 TED 和 TEDx 英文演讲。”

作为 AV-HuBERT 自我监督训练的结果,它可以比之前所有尝试更好地预测演讲者视频中的单词,写施和公司。

但是,比原始分数更重要的是训练程序所需的数据量大幅减少。

“AV-HuBERT 使用 433 小时的文本转录达到了最先进的水平,比之前最佳方法中使用的 31,000 小时标记数据少两个数量级,”他们写道。

由于所需的数据少得多,因此可以在数据比其他语言少得多的语言(即所谓的低资源语言)上执行唇读任务。 (例如,想想英语、法语和德语以外的语言。)

作者观察到“作为未来的工作,AV-HuBERT 可以应用于低资源语言的多语言唇读”,并且相同的“方法可以扩展到视觉语音表示的其他应用,例如语音增强和生成 ”

Shi 及其同事在上周发表的第二篇论文中补充了他们的发现,该论文描述了 AV-HuBERT 在自动语音识别中的应用。 在这里,重点是如何在噪声环境下更好地解析语音。

语音识别“部署在会议场景中会受到嘈杂噪音的影响,而在家庭环境中使用的语音识别自然会遇到音乐、烹饪或吸尘器的噪音。” 他们的疑问是 AV-HuBERT 是否可以克服这种环境噪声。

在训练期间,Shi 和团队将噪声片段与 AV-HuBERT 的视频帧和音频波形样本混合在一起。 他们写道,结果是该程序擅长绕过喋喋不休。 与以前的语音识别系统相比,AV-HuBERT 的词错误率或 WER(错误词的比例)降低了 50%。

“我们未来的工作包括在现实世界的低资源和多语言环境中应用视听语音识别,”他们写道。

那么,像 HAL 9000 的唇读这样的东西有多真实呢? 近年来,AI 的唇读能力优于人类的观点在之前的 AI 研究中有所体现。 AV-HuBERT 的最佳展示中的单词错误率确实远好于人类专业唇语读者,为 26.9%。 显然,大多数人类唇读者得到的最好结果只有 40%(他们十有八九是错的。)显然,对于诸如事后转录谈话之类的事情,这可能会对软件程序产生巨大的推动作用。

但在实践中,有一个很大的警告。 这真的是模拟唇读。 AV-HuBERT 结果通过了对录制视频的测试,而不是像电影中 Bowman 和 Poole 那样的现场、自由形式、野外对话。

目前,您在吊舱内可能仍然安全。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 请打开吊舱舱门,HAL:Meta 的 AI 模拟唇读 https://www.7claw.com/56778.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务