互联网资讯

AI 技术在编解码器中的应用与高通的新进展

2024年4月6日 · admin

将人工智能引入视频编解码器的探索，正在从“前卫思路”走向系统性研究。

通过帧插值、降维泛化、语义感知与生成对抗网络等技术，可以把传统编解码器的能力拓展到新的维度。你或许会问，这些看似“脑洞”般的算法，能否真正落地到编解码器中？

举例来说，原有算法在每帧压缩至 16.4KB 时，某些场景会出现明显模糊；

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

应用生成对抗网络（GAN）后，画面不仅更清晰，且同样的压缩率下每帧数据也更小，大约只需要 14.5KB 即可完成压缩任务。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

再者，将插帧思路与神经编解码器结合，能在保持或提升压缩效果的同时降低编码开销。

这一系列思路背后的原理与潜力，成为了业内关注的焦点。

下面，我们从高通在编解码器领域的研究出发，了解其在算法细节与原理方面的一些探索。

编解码器标准的“内卷”与挑战

在深入具体算法前，先简要回顾视频压缩的基本原理。

若不进行压缩，1 秒 30 帧、8-bit 单通道色深的 480p 视频，单秒传输数据量高达 80 Mbps 及以上，若要在网络上实时观看高清影像，几乎不可行。

当前的压缩技术主要集中在色度子采样、帧内预测（空间冗余）和帧间预测（时间冗余）这几个维度。

色度子采样基于人眼对亮度敏感而对颜色不那么敏感的特性，对颜色分量进行降维处理，同时尽量保留视觉效果。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

帧内预测利用同一帧内的相似区域来预测相邻像素的值，从而降低数据量；

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

帧间预测则通过运动估计与补偿，降低相邻帧之间的冗余数据量，尤其在背景等场景中效果显著；

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

这些方法在具体的编解码器实现层面，涉及分区、量化、熵编码等多项技术。

但从 H.265 到 H.266，整体压缩性能提升大约 30%，代价却伴随编码复杂度提升 30 倍、解码复杂度提升 2 倍。这使得压缩效果的提升更多地变成了“以更大复杂度换取更少数据”的权衡，创新性有所下降。

因此，研究者们开始从原理入手，探索在现有压缩框架基础上通过 AI 引入新的优化路径。

三大方向提升压缩性能

当前的 AI 研究方向大致聚焦于：提升帧间预测的能力、降低解码复杂度，以及提高整体的压缩质量。

“对 B 帧的预测能力提升”

在帧间预测方面，已经有工作提出了面向 B 帧的新思路，相关论文曾在国际会议上公开展示。

I 帧：帧内编码；P 帧：前向预测编码；B 帧：双向预测内插编码。
常规编码中，B 帧依赖于 I 帧与 P 帧的双向预测，H.265 已对其提供了支持，H.264 则没有。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

尽管引入 B 帧能提升压缩效果，但存在两个问题：一是需要提前加载后续帧以编码 B 帧，二是若 I 帧与 P 帧相关性过高，双向预测可能带来浪费。

举例来说，如果从 I 帧到 P 帧之间只有一个物体在移动，使用双向运动补偿就显得低效。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

在这种情形下，插帧思路似乎更具优势，通过时间戳直接预测运动状态，编码量也更低。

但若 I 帧与 P 帧之间发生较大跳变（如球体在 B 帧中突然弹跳），插帧的效果将大打折扣，因此应结合两者，协同利用神经网络对 P 帧进行压缩并进行插帧补偿，来预测后续需要的运动补偿。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

初步结果显示，结合神经网络的预测与插帧的方法，效果超过了早期的行业基准，甚至优于基于现有开源编解码器实现的压缩性能。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

“过拟合”降低解码复杂度

面对标准内卷带来的挑战，一些研究尝试用 AI 实现自适应算法，即通过对比特流中的权重增量进行模型更新，达到在不牺牲压缩性能的前提下降低解码复杂度的目的。相关思路已在学术论文中出现。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

若对单个模型进行“过拟合”，并将权重增量编码到比特流里，能在传输端实现更低的解码成本，同时保留原有模型的性能表现；实验表明，该方法在不降低压缩性能的前提下，能够实现显著的解码复杂度下降。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

进一步的研究也在探索将该思路与其他编码策略结合，以实现更高效的解码方案。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

语义感知与 GAN 提升压缩质量

语义感知的核心在于让 AI 根据人眼重要性的认知来分配比特资源，优先提升观众关注区域的画质，从而在整体质量不变的情况下看起来更自然。

比如在观看网球比赛时，观众更关注球员动作与击球细节，而非场边观众或背景场景。通过训练让系统将更多比特用于目标人物区域，效果更显著。

相关实现通常使用语义分割掩膜（Mask）来界定关注区域，进而优化局部画质：

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

从结构角度看，这也便于对关注区域的局部进行更精细的编码：

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

高端系统表示，语义感知的图像压缩已扩展到视频域，仍然以局部区域为重点，效果不错。

在 GAN 的框架下，目标是用更少的比特实现同等或更高的视觉质量，进一步提升整体体验。

用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

数据集方面，相关工作往往来自于面向图像的公开数据集与视频领域的联合数据资源。通过对不同场景、不同分辨率的训练，系统能够在多种场景下保持稳定表现。