Meta在博客中发表了一项新的开源音频压缩技术EnCodec,声称压缩后的文件大小比MP3格式小10倍。
据报道,Meta的基础人工智能研究团队在AI驱动的音频超压缩领域取得了成功,构建了一个三部分系统,并对其进行端到端的训练,将音频数据压缩到目标大小,然后使用神经网络对这些数据进行解码。
与64 kbps的MP3相比,Meta的新技术EnCodec在不损失质量的情况下,实现了10倍左右的压缩率。
EnCodec的三个部分包括:
编码器:获取未压缩的数据,并将其转换为更高维度和更低帧率的表示形式。
量化器:将此表示压缩到目标大小,并通过将量化器训练到所需大小来重建原始信号,同时保留最重要的信息这种压缩后的表示存储在磁盘上或通过网络发送,相当于电脑上的. mp3文件
解码器:将压缩后的信号尽可能地转换回与原始信号相似的波形有损压缩的关键是识别人类无法感知的变化,因为在低码率下不可能实现完美重建为此,EnCodec使用鉴别器来提高生成样本的感知质量,并创建了一个类似猫捉老鼠的游戏,其中鉴别器的工作是区分真实样本和重构样本压缩模型试图通过推动重建样本在感知上与原始样本更相似来欺骗鉴别器
本站了解到,Meta表示该技术尚未覆盖视频,但目前正在计划中它的目标是改善视频会议,流媒体电影和在VR中与朋友玩游戏的音频体验
论文地址:点击此处查看。
GitHub开源页面:点击此处查看
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。