为了向大众发布这则喜讯,微软公司的研究员发布了一篇将近16页的论文,展开了详细描述。VALL-E只需要对3秒钟的声音样本进行采样,就能清晰地模拟出这种声音的语音。简单来说,VALL-E只要“听懂”了别人的特定声音,就能合成这个人说的所有话,并保存说话者的心态与声学设计。这是语音合成技术的一次重大进展。
那么微软公司是怎样完成这个神奇的技术的呢?VALL-E被称为“神经系统编码解码语言表达模型”,它以现成的神经系统音频转码软件模型中提取离散变量编码训练而成,它被建立在一个名为EnCodec的音频转码专业技术之上。相比之前的语音合成方式,VALL-E需要经历“语素-离散变量编码-波形”的过程,而非“语素-节奏-波形”的传统过程。具体来说,VALL-E将TTS视为一个标准语言表达模型任务,根据语素和声码提醒形成离散变量的音频编码解码编码,相配合于总体目标内容和说话人的声音。
微软公司在LibriLight音频库上进行了VALL-E的语音合成实验,该库包含了来自7000多位演讲人的60,000小时英语演讲内容,其中大部分来源于LibriVox公共音频读物。这个训练数据为VALL-E的预训练提供了很好的条件,而且VALL-E不断地学习和自我提升,适合合成高质量的个性化语音。
虽然推出VALL-E是一项伟大的技术成就,但仍有可能导致安全隐患。科研人员担心VALL-E可能会被滥用用于诈骗或违法活动。为了缓解这种风险,他们正在设计一种模型来检验一段音频是不是由VALL-E合成的。微软公司也会进行人工智能标准的开发和运用。因此,我们需要小心注意这个技术的潜在风险。
更多细节内容请参考以下链接:https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments https://valle-demo.github.io/ https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/ 来源:iNFTnews深层优选