近年来,随着深度学习技术的迅猛发展,基于人工智能的超分辨技术在图像恢复和增强方面展现了巨大的应用潜力,备受学术界和工业界的关注。然而,在实时通信(RTC)视频领域,许多AI算法未能满足实际应用需求。本文将重点讨论AI技术从研究到实际部署的挑战,分享超分辨技术在RTC领域实施过程中所遇到的机遇与挑战。
一、超分辨技术概述
1. 超分辨技术的提出

超分辨的概念最早由HaRRis和GoodMan在20世纪60年代提出,指的是通过某种算法或模型将低分辨率图像转化为高分辨率图像的技术,并尽力恢复更多细节信息,这种技术也被称作频谱外推法。然而,在早期研究阶段,频谱外推法多用于假设条件下的仿真,并未获得广泛认可;直到单张图像的超分辨方法被提出,超分辨技术才逐渐进入广泛研究和应用的轨道。目前,它已成为图像增强及计算机视觉领域的重要研究方向。
2. 超分辨技术的分类

单张图像的超分辨方法根据原理可分为基于插值、重构和学习的方法。前两种方法由于算法原理简单且应用场景有限,实际的超分辨效果常常不尽如人意。而基于学习的方法则表现出更优越的实际效果,其核心包括算法模型的构建和训练集的选择。根据这些因素,基于学习的方法又可分为传统学习和深度学习方法。一般来说,传统学习方法的算法模型相对简单,训练集规模较小;而深度学习方法通常采用大量数据训练的卷积神经网络,成为目前学术界的研究热点。因此,接下来将重点介绍基于深度学习的超分辨方法的发展历程。
3. DL-based SR

SRCNN是深度学习在超分辨问题上的首次尝试,它是一个相对简单的卷积网络,由三个卷积层构成,各自负责不同功能。第一个卷积层负责提取高频特征,第二个层则进行低清特征到高清特征的非线性映射,而最后一个卷积层则重建出高分辨率图像。尽管SRCNN的网络结构较为简单,超分辨效果仍有待提升,但它确立了深度学习在处理超分辨问题时的基本理念。后续的深度学习方法均遵循这一思路进行超分辨重建。
后来的网络如ESPCN、FSRCNN等在SRCNN的基础上进行了改进,尽管网络层数仍然较少,通常不超过10层,但超分辨效果并不理想。因为在当时,深度卷积网络的训练存在问题,通常情况下,网络层数增加时,性能也相应提升。然而,实践中发现,当网络层数达到一定程度时,由于反向传播原理,可能会出现梯度消失问题,导致网络收敛性变差,模型性能下降。这个问题直到ResNet提出残差网络结构后,才得以较好解决。
VDSR是残差网络及残差学习思想在超分辨问题上的首次应用,首次将超分辨网络层数提升至20层,利用残差学习方式直接学习残差特征,网络收敛速度较快,超分辨效果显著提升。随之而来的复杂卷积神经网络,如SRGAN,采用生成对抗网络生成高分辨图像。SRGAN由生成网络和判别网络两部分组成,生成网络根据低分辨率图像生成高分辨率图像,而判别网络则判断生成图像的真实性。通过两者间的博弈,最终实现生成细节纹理更加逼真的高分辨图像,提升了主观视觉效果。其他深度卷积网络如SRDenseNet、EDSR、RDN等,采用更加复杂的网络结构,卷积层数不断增加,单张图像的超分辨效果也日益提升。

总体来看,超分辨技术的发展趋势可概括为从传统方法向深度学习方法的转变,从简单卷积网络到深度残差网络的演进。在这一过程中,超分辨模型结构不断复杂化,网络层次逐渐加深,单张图像的超分辨效果显著提高,但同时也带来了一些问题。
二、实时视频任务的需求与超分辨的挑战

在RTC领域,视频处理任务多为直播和会议等即时通信场景,对算法的实时性要求极高。因此,视频处理算法的实时性是首要考虑因素。此外,算法的实用性也是关键,用户在进行直播或会议时,摄像头采集的视频质量常常较低,可能伴随大量噪点;视频在编码传输过程中也会经历压缩,造成图像质量下降。因此,RTC的实际应用场景复杂,许多视频处理方法,如超分辨算法,通常是在理想条件下进行研究的。进一步提升用户,尤其是移动端用户的体验,减少算法的计算资源占用,以适应更多终端和设备,也是视频任务必须考虑的要素。
针对这些需求,目前的超分辨方法,尤其是基于深度学习的超分辨方法,仍存在许多问题。当前学术界对超分辨的研究大多停留在理论阶段,若希望图像超分,尤其是视频超分能大规模落地,亟需解决一些实际问题。首先是网络模型问题,许多深度学习方法为了追求更优的超分辨效果,使用了庞大的模型,参数量激增,导致计算资源消耗巨大,无法实现实时处理。其次,深度学习模型的泛化能力也值得关注,训练集的适配问题会影响模型在不同场景中的表现。在实际应用中,公开数据集训练的模型,未必能在特定场景下展现出同样的效果。最后,真实场景下的超分效果问题也不容忽视,当前学术界的超分方法多集中于理想场景下的重建,而真实场景中的图像退化因素则更为复杂,包括压缩、噪声及模糊等。
综上所述,目前基于AI的超分辨方法在RTC视频任务中面临的主要挑战可概括为,如何通过较小规模的网络实现良好的真实效果的视频质量增强,即“既让马儿跑得快,又让马儿少吃草”。
三、视频超分辨技术的发展方向
首先,深度学习方法仍将主导超分辨算法的发展。
由于传统方法在超分辨任务中的效果不理想,细节呈现不足,深度学习方法为超分辨提供了新的思路。近年来,以卷积神经网络为基础的超分辨方法逐渐成为主流,其效果也在不断改善。

从上图可以看到,近年来基于AI的超分辨方法在论文数量上相较于传统方法呈现出明显的优势,这一趋势在未来几年内可能会进一步扩大。尽管存在一些问题,但随着轻量级网络的出现,深度学习方法在实际应用领域有望取得更大突破,这些问题也有望得到解决,深度学习方法依然是超分辨研究的主流方向。
其次,参数较小的轻量级网络在推动超分算法落地中将发挥更大作用。
目前,诸如EDSR、RDN等深度残差网络难以满足视频实时传输的需求,而一些较小的轻量级网络在实时任务中表现更佳。
第三,未来的超分辨方法将更注重真实场景任务。
学术界的SR方法多集中于下采样问题,而在真实场景下的表现却不尽人意。真实场景中的图像退化因素复杂多样,因此,一些针对压缩损失、编码损失及各种噪声的超分辨任务可能会更具实用性。

四、网易云信AI超分算法

在RTC领域,由于视频文件庞大,必须进行编码后再传输到接收端解码播放。编码过程中本质上是对视频进行压缩,当网络状况较差时,编码量化参数较大,可能导致严重压缩,产生块效应和其他失真,画质模糊。在这种情况下,直接对解码后的视频进行超分,压缩损失会被放大,超分效果往往不理想。为此,网易云信提出了一种基于编码损失恢复的视频超分辨方法,采用数据驱动和网络设计并重的策略,通过数据处理模拟真实失真场景,并对模型设计及工程实现进行层层优化,针对AI超分技术的两大瓶颈问题实现了一定突破,取得了在模型实时性和真实场景超分效果方面的良好效果。

以上是网易云信在推进AI驱动的超分技术落地应用方面的一些实践经验,期望能为大家提供启发和参考。
