VR视频属于一种弱交互、轻交互业务,这类视频一般经过预先编排、规划后,用户在VR终端以任意自由度视点观看。用户与视频的交互主要发生在用户转头改变当前视点上。VR视频在分辨率、帧率、色深等多维度指标上相较于传统视频要求更高,因此,在保证视频质量前提下,传输过程中常优化VR视频传输的数据量,以减少视频码率,降低对承载网络带宽要求,降低终端计算能力要求。
1、VR视频业务流程
VR视频从引入、发布到在VR终端设备播放经历了哪些流程呢?如下图所示,流程中一般涉及内容提供方(Content Provider,CP)、运营管理方、运营商业务平台、承载网络和终端厂商等多家机构。
2、VR视频指标
VR视频传输除了和上述业务流程相关外,也和用户体验质量(Quality of Experience,QoE)密切相关。一般地,用户主要关注视频画面质量、初缓时长、卡顿情况等,具体指标参数如下表所示。
3、VR视频传输方案
终端每个角度可见的像素数量(Pixels Per Degree,PPD)用来表示VR视频像素的密度。视场内像素密度越高,清晰度越高、观看体验越好。人的单眼水平视场角约为160°,垂直视场角约为150°,以PPD为20进行换算,要求视频内容的全视角分辨率达到8K(7680×4320)。若考虑帧率、色深和立体感等其他维度的指标,视频流数据量更大,码率要求更高。因此,VR视频传输技术重点解决上述问题。
3.1 高质量全视角传输方案
高质量全视角传输方案对全视角的VR视频源内容进行投影、切片、编码后,平面媒体格式的内容由运营商网络以同等质量传输至终端,终端对全视角的内容进行全部或部分切片解码、渲染,如下图所示。
方案优势:用户在进行视角(File of View,fov)切换时,终端完成包括码流解析、视频解码和画面渲染等处理,用户能即时 (Just-in-time) 看到同等质量的内容。
方案不足:①受限于人眼水平、垂直视场角和现有终端支持视角(可支持的视角为90°~110°),一般能看到的360°球面信号约为整个全景的19%,以同等质量传输全视角内容造成网络资源浪费。②全视角内容要求终端侧具备与内容同等分辨率的解码能力。③等距柱状投影借鉴地图经纬线投影的思想,将球面展开为平面矩形,依靠增大面积变形保持角度不变(空间球体画面在赤道部分投影展开后失真小,而越向两极,画面失真越大),改方式投影引入过多无效冗余像素,文件压缩效率较低。
3.2 基于投影优化的全视角传输方案
基于投影优化的全视角传输方案使用多面体投影(Platonic Solid Projection,PSP),选择部分经纬线作为边界将空间球体面分割成多个部分,再将各部分的局部球面投影到某个多面体(包括四面体、六面体、金字塔、立方体等)的不同面上。多面体投影将球面的不同区域投影到多面体不同面积大小的面,由于每个区域单独投影,相较于等距柱状投影极大程度降低了画面失真。基于投影优化的全视角传输技术,虽然减少网络传输的数据量,但仍会传输大量未呈现给用户的内容。
3.3 分片传输方案
分片传输方案对用户fov区域使用高质量画面保障视场内画质,对非FoV区域使用低质量画面,使得用户在切换视角时能看到画面,保障用户切换体验。如下图所示,分片传输方案将高质量的全视角画面划分成多个分片,分别对每个高质量分片进行编码。通过降质处理高质量分片获取对应的低质量分片。终端根据用户当前视角姿态向内容侧请求对应FoV内高质量分片和非FoV区域的低质量分片,再对获取的分片进行解码、拼接成完整画面。为减少传输数据量,非FoV区域的低质量分片也可选择不全部传输,仅传输部分角度(比FoV大)区域内的低质量分片。
方案优势:①只分片传输fov和部分非fov的方式降低网络传输需求,在终端侧复用部分重叠区域视频分片,能进一步减少内容侧向终端侧推送数据量。②非fov区域低质量分片和fov区域高质量分片组合传输极大提升了视角切换体验。
方案不足:①分片传输方案需要在终端对分片进行实时拼接,终端侧引入更多计算,对终端计算能力要求更高。②拼接算法效率或有效性不足,会带来画面拼接错位、高低质量分片拼接明显等问题。
3.4 基于全视角的分片传输方案
基于全视角的分片传输方案在内容侧提供了低质量的全视角视频流和高质量的分片视频流。终端侧根据当前的视角信息,向内容侧获取低质量的全视角视频流以及视角区域范围内的高质量分片视频流并进行融合呈现。基于视频分片的自适应视频传输(Tile Wise Streaming,TWS)方案典型代表,TWS传输方案被动态图像专家组织(Moving Picture Experts Group,MPEG)的全景视频格式(Omnidirectional Media Format,OMAF)工作组所采纳,并被写入了最新的标准ISO/IEC 23090-2。如下图所示,TWS方案在内容侧准备了具备基本质量要求的全视角视频流和高质量的Tile(分块,即按照矩形划分的分片)视频流,内容侧依据终端视角信息推送全视角视频流和视角范围内的多份Tile视频流,再由终端进行解码、拼接和呈现等。
方案优势:①全视角低质量画面不受网络传输和终端解码能力制约,全视角低质量画面是确定的,无需终端按需获取再进行实时拼接,降低了终端的拼接计算压力。②在网络较差场景下,视频能以基本质量播放,保障了播放流畅度。③更适用于大屏电视等性能相对较低的终端。
4、总结
分片传输技术方案在fov切换时体验更佳,目前在该方案上出现大量fov预测相关研究。基于多自由度的视觉惯性测距、眼部追踪等技术,借助AI模型预测用户视角规律,并将预测内容文件缓存至移动边缘网络,借助边缘缓存和计算能力,提前完成流行内容缓存、近场渲染、GPU云渲染,让用户获得更流畅VR体验。
作者:朱磊
单位:中国移动智慧家庭运营中心