黑石集团在以太坊上的代币化基金支付了210万美元
明智的决定:Meta 推出 AI 驱动的 Audiobox
Facebook 母公司 Meta 周一发布了其新的人工智能音频发生器平台 Audiobox 的第一个演示。这家社交媒体巨头表示,Audiobox允许用户使用语音输入和提示创建自定义语音和声音效果。
Meta 表示,Audiobox 建立在今年早些时候推出的为其 Voicebox 平台开发的技术之上,但它在质量上超过了 Voicebox,并包括用于“负责任使用”的自动水印。
Meta 的 Audiobox 团队表示:“Audiobox 是 Voicebox 的继任者,通过统一语音、音效(短而离散的声音,如狗吠声、汽车喇叭声、雷声等)和音景的生成和编辑功能,进一步推进音频生成式 AI,具有多种输入机制,以最大限度地提高每个用例的可控性。
该团队解释说,Audiobox使用“定制求解器”,他们声称这种求解器使生成过程比以前的模型快25倍以上,而不会损失性能。
今年 6 月,Meta 宣布推出 Voicebox,这是一款生成式 AI 工具,Meta 表示可以生成六种语言的音频,包括英语、法语、德语、西班牙语、波兰语和葡萄牙语,并且可以更接近人们在现实世界中自然说话的方式。
随着当时对人工智能深度伪造的担忧加剧,Meta 表示不会向公众发布 Voicebox,并承认存在滥用的可能性。为了防止滥用 Audiobox,Meta 添加了水印。
“音频生成模型在质量和保真度方面的最新进步为该模型提供了新的应用和用例。然而,与此同时,也有很多人......引发了对滥用风险的担忧,“Audiobox团队在其报告中说。“因此,识别哪些音频是生成的或真实的,对于防止[滥用]该技术并使某些[平台]能够遵守其政策至关重要。
Meta 说:“Audiobox 模型和我们的交互式演示都具有自动音频水印功能,因此使用 Audiobox 创建的任何音频都可以准确地追溯到其来源。“我们的水印方法将人耳无法察觉的信号嵌入到音频中,但可以使用能够在音频中找到 AI 生成的片段的模型一直检测到帧级别。”
“我们设计了基于描述和基于示例的提示,以增强可控性并统一语音和声音生成范式,”该团队说。“我们允许在生成语音时独立控制转录、人声和其他音频风格。”
虽然它可能更快,但 Meta 承认,像 Audiobox 这样的音频生成 AI 模型受到训练数据量的限制,在这种情况下,声音被标记并输入到 AI 模型中,强调了正确标记数据的重要性。
研究人员说,举个例子,将吉娃娃和拉布拉多犬的吠叫声标记为特定的狗类型比简单地将其标记为“狗吠”更可取。Meta 表示,这同样适用于口音和地方方言等语音模式。
Meta发言人拒绝提供进一步置评。
与谷歌、Microsoft 和亚马逊一样,Meta 在人工智能方面投入了大量资金。本月早些时候,Meta 宣布其平台套件将推出 20 多项新的 AI 功能,包括 Facebook、Instagram 和 WhatsApp。
作为负责任的人工智能开发的支持者,Meta 最近与 IBM 合作推出了人工智能联盟,这是一个由 50 多家公司、大学和智库组成的联盟,专注于开源人工智能创新和开发。
Meta 全球事务总裁 Nick Clegg 表示:“AI 联盟将研究人员、开发人员和公司聚集在一起,分享工具和知识,无论模型是否公开共享,这些工具和知识都可以帮助我们所有人取得进展。我们期待与合作伙伴合作,推动人工智能的发展,并帮助每个人负责任地进行建设。