Meta AI驱动的音频编解码器比MP3压缩率高10倍

微信微博 QQ空间 MORE

上周，Meta公司宣布了一种名为"EnCodec"的人工智能驱动的音频压缩方法，据说可以将音频压缩到比MP3格式小10倍的64kbps而且具有同等的质量。Meta公司表示，这种技术可以极大地改善低带宽连接上的语音质量，例如在服务不完善的地区进行电话通话。该技术也适用于音乐。

Meta公司于10月25日在一篇题为"高保真神经音频压缩"的论文中首次介绍了这项技术，论文作者是Meta公司的人工智能研究员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta公司还在其专门介绍EnCodec的博客上总结了这项研究。

Meta公司将其方法描述为一个由三部分组成的系统，经过训练可将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧率的"潜空间"表示。然后，"量化器"将该表示法压缩到目标大小，同时跟踪最重要的信息，这些信息随后将被用于重建原始信号。(这个压缩信号将通过网络发送或保存在磁盘上)。最后，解码器使用一个神经网络在单个CPU上将压缩的数据实时地转变成音频。

Meta对鉴别器的使用被证明是创造一种尽可能多地压缩音频的方法的关键，同时又不失去信号的关键元素，使其与众不同并可被识别。

"有损压缩的关键是识别人类无法察觉的变化，因为在低比特率下不可能实现完美的重建。为了做到这一点，我们使用鉴别器来提高生成的样本的感知质量。这就形成了一个猫捉老鼠的游戏，鉴别器的工作就是区分真实的样本和重建的样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器"。

值得注意的是，使用神经网络进行音频压缩和解压远非新鲜事，特别是用于语音压缩时，但Meta公司的研究人员声称他们是第一个将该技术应用于48kHz立体声音频(比CD的44.1kHz采样率略好)的工作小组，这是在互联网上传播的最典型的音乐文件。

至于应用方面，Meta公司表示，这种由人工智能驱动的"超压缩音频"可以在恶劣的网络条件下支持"更快、更优质的通话"。当然，作为Meta公司，研究人员还提到了EnCodec的元数据影响，说该技术最终可以提供"丰富的元数据体验，而不需要大幅提高带宽"。

除此之外，也许有一天我们还能从它那里得到更小的音乐音频文件。目前，Meta公司的新技术仍处于研究阶段，但它指向一个高质量音频可以使用更少带宽的未来，这对流媒体造成网络负担过重的移动宽带供应商来说是个好消息。

关键词： Meta AI 音频编解码器高10倍

责任编辑：zN_0311

全球观速讯丨两市融资余额增加12.58亿元
截至11月2日，上交所融资余额报7702 84亿元，较前一交易日增加6 16亿元；深交所融资余额报6774 10亿元，较前一交易日增加6...
天天快资讯丨虚拟现实产业五年行动计划出炉市场热情高涨上市公司回应积极
专家认为，虽然当前虚拟现实的关注度很高，但实际投入产出情况与市场预期还存在差距。真正能够实现产业化落地，产生商业价值...
年内31家A股公司宣布赴境外GDR上市近三成来自锂电行业
截至11月2日，今年先后有31家A股上市公司筹划境外GDR发行上市。从发行上市目的地看，24家选定瑞交所，占比77%；3家定在伦交所...
当前时讯：科创板成交额再放量 7只做市标的3天累计涨幅超10%
科创板做市交易业务落地以来，资金流入意愿强烈。11月2日，科创板成交额突破800亿元，创8月5日以来新高。科创50指数收涨1 24...
航班保底补贴条件放宽政策红包带飞股价
今年前三季度，7家A股上市客运航司均陷入亏损，且合计亏逾1008亿元。四大航司为亏损主力。其中，三季度亏损最多的是中国东航...