作者 | 黄敏峰,单位:中国移动智慧家庭运营中心

Labs 导读

万物互联时代,AIoTel技术打通了人与物之间的交互壁垒,构筑出人与人、人与物、物与物广泛连接的通信系统,极大拓展了通信边界。视频作为一种基础的通信交互媒介,也随之迎来更广阔、丰富、多变的的应用舞台,本期我们就先从这个舞台的支柱——视频讲起,探知AIoTel下的视频特征及编码技术。在进入正题之前,首先让我们了解一下,什么是AIoTel?

1 AIoTel及媒体特征

AIoTel是一个组合词,它由AI IoT Telephony拼接而成,表达由智能设备、物联网、多媒体通信等技术构建的新型多媒体交互体系,也称作物联多媒体。在这个体系中,人不再占据交互主导地位,而出现了物与物、物与人的互动方式。

AIoTel通信

相较传统多媒体通信技术有以下三个突出特点:

1.1 场景多样化

物联多媒体通信服务广泛存在于各种地方、各类设备和软件中,涵盖安防、汽车、家居、医疗、办公和工业等众多应用领域,对视频的能力要求各不相同。安防视频静态背景和动态对象相结合,汽车自动驾驶、办公会议通常对媒体的实时性有较高要求。医疗、家居娱乐对高清、超高清的需求较为显著。

1.2 终端多态化

物联网多媒体通信服务向消费者传递信息的场景和媒介的界限也在被不断突破和延展,终端的形态更加丰富。智能电视、智能冰箱、智能音箱、早教机、智能手环等大、中、小、微屏形态各异。

1.3 网络复杂化

承载物联多媒体通信服务的网络可能是广域网(如Internet)、局域网、无限局域网(如wifi)、个域网(如蓝牙,红外,NFC等)不一而足,网络带宽、网络稳定性等网络环境差异巨大。

终端多样化和网络复杂化,决定了物联多媒体视频编解码应具备智适应能力,即编码器能更据屏幕尺寸、网络环境自动调节分辨率、码率以及抗丢包能力。

场景多样化,如何更据场景特点来决定编码目标,包括极致压缩、实时编码、高清低码等,形成物联多媒体场景化编码能力。

接下来我们会更加详细地介绍智适应和场景化这两个主要特征。

2 智适应

在AIoTel的视频应用中,需要根据终端、网络、内容、应用等不同特征智适应调整,提出了四个方面的编码要求:自适应屏幕、自适应带宽、自适应参数、自适应内容。

自适应屏幕

自适应屏幕的目的是视频媒体能够自动适配大、中、小不同尺寸屏幕,目前有多种方案,一种是是可分级编码(SVC),把视频信号分层多个层级。在编码端对原始视频信号经下采样、重构、上采样等过程,形成一个基本层和多个增强层,基本层码流可以单独解码,还原最低质量码流,增强层中包含高质量视频重构所需的额外信息。另一种视频超分(SR),接收端把低分辨率的视频帧,利用插值、深度学习等方式,经过视频降噪、锐化、去模糊、去抖动等增强处理,扩充像素点,使视频达到较高分辨率,提升低分辨率在高分辨率上的视频质量。

自适应带宽

自适应带宽是根据不同网络中带宽的承载能力,动态调整编码参数,控制传输码率,实现编码能力与网络能力的匹配。要实现良好的应用效果,需要综合多种手段来联合控制。通用的方法是结合编码输出带宽和当前网络的状态,动态调整帧率、分辨率、码率等参数。这些参数的调整都会对视频质量产生影响,对帧率的调整,会影响视频的流畅程度;对码率的调整,会影响存储、带宽和清晰度;对分辨率的调整,直接决定视频的清晰度。因此,需要综合衡量不同参数的影响,以达到较好质量。

自适应参数

自适应参数是指在传统编码框架中,利用AI技术对部分模块进行部分前处理和后处理,确定部分编码特征和参数,减小编码过程的遍历和运算,降低复杂度,提升视频质量。比如在计算占比较大的CTU划分阶段,通过基于随机森林的CTU划分算法,直接预测最优的CTU划分方式,而无需遍历整个参数,从而显著降低计算复杂度;在码率控制阶段,采用强化学习方法实现更为精确的码率失真模型,提升码率控制的精度及压缩性能。

自适应内容

针对应用群体的特征,对用户(老人/儿童)、不同显示要素,为编码到应用各个层面,提供不同的能力。一方面,不同区域或者对象的视觉重要性不同,关注程度不同,各种失真也具有不同的敏感和容忍程度,据此可以分配不同的编码资源,有选择地控制质量,提升视频压缩率。另一方面,可以通过识别和跟踪视频中人物或物体,及时准确地识别和捕捉所关注的事件,自动地进行标记和提醒,用于日常生活辅助、家居看护等方面。 

3 场景化

质量、时延、压缩率、复杂度、流畅度等是视频的几个维度,不同的场景下的应用目的不同,所需求的维度特征也不相同不同。接下来我们从RTC和家庭安防两个典型的场景,了解不同业务下的视频要求。

3.1 家庭安防

安防行业的视频场景有诸多特点:

  • 比如摄像头一般都固定在某个位置,所录制的视频画面背景较为稳定;
  • 摄像头一般位置高、角度广,因此视频画面包含的内容比较丰富,但是画面变化较为平缓;
  • 安装在室外的摄像头,光线、雨雪、雾霾等天气因素会影响到视频质量;
  • 安防行业一般都是监控人、车的行为,因此人脸、车牌能否清晰可见也是评价的关键因素。

因此,安防行业的视频能力会侧重以下几个方面:

高压缩率

由于大部分监控场景下,视频背景几乎不会变化,这就为高压缩率提供了可能;同时,直播会发生在多种网络环境下,如果较高码率遇到不佳的网络状况时,就会出现丢包、花屏或者时延增加的问题;另外,视频片段存放在云服务器上,码率大小与云存储的成本也是直接相关的,所以各个方面都会要求尽可能的提高视频的压缩率。在视频编码时,大多可以采用可变码率的方式,尽可能降低每一帧的压缩率。

低时延

网络时延是指一个图像数据从前端的摄像头采集,到传输客户端,用户通过显示器观看到图像的时间差。例如人在摄像机前挥动手臂,图像采集后通过编码,然后通过网络传输到后端解码显示出图像,这一过程虽然很短暂,但仍然可以感觉到显示图像略有滞后,这就是我们通常所说的网络视频监控时时延。

一般基于内部网络系统的监控系统,要求时延小于500ms;基于公网传输的监控系统,时延小于2秒。

低帧率

由于大部分场景下,画面变化比较小,背景几乎不动,为了降低网络带宽的占用和存储成本,安防行业一般使用每秒15帧的帧率,在实践中也是能满足要求的,这也是降低码率提高压缩率最直接的手段。

高分辨率

安防行业的视频,经常需要获取“谁”发生了“什么事情”这样的信息,所以画面中的人脸、车牌等关键信息需要清晰可辨。

因此,在视频编码时,可以考虑前后景动态编码技术,将图像中涉及的车辆、人脸等目标信息进行动态识别,精确分离前景和后景,根据场景智能决定编码策略,对重要目标给予高码率,以实现“可辨别”的目标,对背景或者不重要的目标给予低码率,以实现“高压缩率”的目标,从而实现最优的编码。

3.2 RTC

在RTC视频场景下,用户的主要注意力会在屏幕上,与用户体验相关的相对比较重要,如实时性、流畅度等。最终的视频呈现体验不仅受到视频本身处理能力的制约,与网络传输也密切相关。

实时性

RTC场景中通常会有多个参与者,他们随时互相交换信息,比如一次1v1通话、一场会议,一场直播等,具有强烈的互动性,信息的生产端尽快同步内容到各个接收端,接收端接到信息、迅速反馈,才能有良好的体验。实时性在这里就显得极为重要,对端到端的实时性要求一般是不高于400ms。

然而,视频、语音等要经过采样->编码->传输->接收->解码->显示等一系列过程,各个环节处理都需要耗费时间,其中视频编码耗时比重超过70%。提升视频编码的速率,也就成为RTC下对视频一个重要要求。

高流畅

视频流畅还可以用另一个比较容易理解的词——“丝滑”。

视频本质上是一张张图片的连续播放,它利用了人眼的视觉残留效应,给人产生了画面连续运动的感觉。一段时间内播放的图片数越多,画面流畅度就越好,一般帧率在24fps达到,人就不会有停顿的感觉。RTC中常用25fps、30fps两种帧率,帧率再向上提升,流畅度提升有限,并且还会使带宽增加。

影响流畅度的另一个因素是网络因素,RTC的视频媒体在网络传输时,为了降低传输时延,基本都采用了基于UDP的RTP协议。而网络侧的阻塞、抖动、丢包等均会会影响接收侧的视频解码,接收的屏幕会出现丢卡顿、马赛克、绿块等明显的现象。

因此,在视频编码时,要求编码器具有动态码率的调节能力,减小网络的影响,并且能够与各种QoS、QoE等策略结合,提升视频的质量。

高波动

不同于摄像头中的位置和视角固定,画面内容连续性较大。RTC场景里的画面内容丰富,并且前后帧之间场景差异可以很明显。图像空间和时间之间的相关性减小,如果想继续保持图像质量,则需要更多编码字节。从而导致了每一帧的编码字节长度变动较大,整天画面呈现高波动状态。并且,一些视频编码器在场景切换时,会重新插入I帧,来增强后续画面的质量,这也进一步加剧了码率波动。RTC场景编码本身的码率和网络的抖动,最终呈现了高波动。

以上我们介绍了AIoTel场景下的视频技术,重点介绍了智适应和场景化两项关键特征,并且结合部分业务介绍了对编码的要求。下期我们将从视频编解码器的角度来了解AIoTel编解码技术。