PPIO边缘云聚焦音视频底层技术,探索元宇宙“登月工程”

编者按: 2021 年 Metaverse 非常火,火到连扎克伯格都不要 “face”,直接把脸书改名为 Meta。2022 年初,元宇宙首次上升为国家级战略,被写入地方 “十四五” 产业规划,成为社会热议的焦点话题。每一项技术的迭代和革新,都意味着一个新的契机、新的挑战,同时也是一个新的开始。元宇宙是未来,一种很大程度上会实现的未来,什么时候才是我们占据主动权的最佳时机?答案就是:现在!想要在短时间内实现元宇宙,如同 “登月工程”,需要我们从底层技术出发,找到内容生态系统的突破口。

本次分享将从 VR/AR 的核心指标及实现,云与边缘架构、编解码、网络传输路径等多个维度,全面分析元宇宙的音视频技术脉络,探讨元宇宙时代产业结构变化,介绍 PPIO 边缘云未来如何为元宇宙提供强大的基础设施服务。

文 / 王闻宇

整理 / LiveVideoStack

今天分享一个比较实在却又比较科幻的话题,对整个元宇宙过程做一次简单的推演,但这个推演不是商业方向的,而是对技术做一个推演。

1、元宇宙的音视频技术脉络与底层技术

大家都知道近几年中国在登月上取得了巨大的进展,特别是在 2020 年,中国登月时对月球进行了采集工作,一共带回了 1.7kg 左右的月壤,是航天史上第一个登陆月球背面并采集了样品的国家。之前 20 世纪 60 年度,美国曾经也有几次登月,但是美国的登月深受全球质疑,质疑者认为这只是给前苏联导演得一出戏,因为登月对人类没有什么用。但是实际上,登月工程真得没用吗?

其实不是,登月给社会带来了许多价值,比如我们生活中用到的设备包括无线吸尘器、钟表更准时、水更干净、救命毯、速食食品等技术,都是在登月期间所研发的重大科技成果,随之带来了很多商业化价值。我讲这个故事的主要原因是,元宇宙听起来离大家比较远,它来源于科幻,担心最终不一定能成为现实。但我演讲主题中的元宇宙就好比音视频行业的登月一样,它虽然目标很远,但过程中一定能诞生一些对我们有帮助的技术创新。

首先做个自我介绍,我是王闻宇,PPIO 边缘云联合创始人兼 CEO,从 2004 年开始做音视频,最早 PPTV 第一版是我和姚欣在学生宿舍写出来的,后面一直专注于 P2P/CDN、直播、点播等相关技术上,直到 2014 年卖掉 PPTV,开始了新的创业历程。2018 年和姚欣联合创办了 PPIO 边缘云,发展靠近用户侧的边缘节点,主要服务音视频行业。

说到元宇宙,它来源于什么呢?最开始,元宇宙来源于 1993 年的一本小说《雪崩》,小说里史蒂芬森将这个平行于物理世界的数字世界命名为 “Metaverse”。之后在影视作品中,元宇宙的理念一步步出现在《黑客帝国》等影视作品中,包括最近的电影《头号玩家》,以及欧洲一家非常知名的蠢驴游戏公司,把元宇宙小说《雪崩》的故事场景还原成了一个游戏叫做《赛博朋克 2077》,里面几乎刻画了小说《雪崩》的世界,游戏中的 “超梦” 也就是元宇宙的体验。从科幻的视野来看,元宇宙最终是给人以类真实世界的音视频体验。

下面我们站在现实的角度来看元宇宙,2021 年,Facebook 公司在 Connect2021 大会宣布正式更名为 “Meta”,从而把 Metaverse 作为 Facebook 的战略。扎克伯格一共提出了八大要素,其中第一大要素是 “身临其境感”,Facebook 为身临其境感研发出了三款硬件,第一款硬件是 Oculus,以 23 亿美元收购了 Oculus 公司,并在 VR 业务上持续投入了大量研发费用。除此之外,它自己又推出了 AR 和 MR 相关的一些硬件产品。扎克伯格所说的元宇宙带来的身临其境感,也是给人以类真实世界的体验,这也是 VR/AR 发展到人眼感官的极致体验。

元宇宙一共有六大核心技术,这六个单词的首字母拼起来就是 BIGANT。其中有四个技术与音视频相关,分别是交互技术、电子游戏技术、网络及运算技术和物联网技术。在元宇宙的整个发展过程中,我相信这几个技术也会得到深度发展。

上图是我对未来通往元宇宙的道路上,有哪些技术会被革新的拆解过程。第一,身临其境感的全真视觉体验技术,如何给人以类真实世界的体验,它势必带来新一代显示技术的发展,需要更高压缩比,更符合真实体验感的压缩技术。第二,它会带来超低延迟技术,包括 wifi 低延时内网技术,低延迟编码,同时也会带动边缘计算的崛起。第三,音视频交互技术。第四,脑机接口技术,直接透过视网膜把显示数据传递给人脑,这些都是元宇宙 “登月” 过程中必然会带来的变革。

我先讲全真视觉体验的产生原理,左图是人眼的结构,右图是人脑处理数据的过程,人眼对光线的感应是通过神经传到大脑,再用大脑进行分析,从而合成我们看到的画面。

首先我们要理解人眼的分辨率到底有多少,这是个非常关键的指标。使用苹果手机时有一个关键词 “PPI“,什么是 PPI 呢?就是每英寸对角线上能容纳多少像素,苹果对视网膜屏的定义是分辨率超过人眼识别极限的高分辨率屏幕,也就是要大于 300PPI 的像素密度。但在 VR 里常常引入一个概念 “PPD”,它是人眼的每一角度(degree)能容纳多少像素。给大家做个类比,人在 40cm 左右的距离看到一个非常清晰的画面(640 像素),换算过来就是 64PPD,那这符合人眼体验吗?其实不符合,64PPD 是远远不够的。实验证明 PPD 要到 150-160 才能匹配人眼密度。

科学实验的结果说明人眼理论的分辨率是 2.4w*2.4w 相当于是 5.76 亿的像素。这只是理论值,人眼单眼的视觉范围大概在 156 度,也就是 2.4w 除以 156,约等于 150 左右,也就是说 150PPD 才符合人眼视觉体验。

但现实真的如此吗?并不是,人眼的分辨率远没有 5.76 亿那么高。为什么呢?因为人眼在感官时并不是全高清感官,它有一个聚焦的位置,只有这个聚焦的位置才是非常清晰的,周围是模糊的。但为什么人能看非常清晰的画面,因为人的眼球会动,会转一圈来获得多个清晰的画面,在大脑里合成并还原出物体实际的样子。

上图看到的是窄域和宽域,窄域是人眼最高清晰看到的画面。左图这个角度是窄域,剩下的是宽域。两眼同时看到的画面结合起来能看到一个完整的视觉效果。右边的图,人用一只眼看时是一块清晰周围全模糊,而用两只眼睛同时看就能获得一个完整的清晰画面。两眼重合视域可达 124°,比较清晰。但对于单眼来说,窄域是 56°-60° 之间,最大单眼视角是 156°,这些都是实验得出数据。

这是来自尼康的一份实验资料。它请了很多人来做窄域像素测试,这些人的眼睛都有不同程度的近视。表格是左眼与右眼测出来的情况,发现人眼实际像素的差距很大。窄域等效像素在 7 百万 – 7 千万之间,如果算平均值,人眼看到最清晰的画面分辨率在 5 千万左右像素,也就是最好分辨率在 7000*7000 左右。如果我们用人眼视觉得到一个值和计算机的分辨率来进行参考,我们发现 7000×7000 跟今天的 8K 是最接近的。

如果说整个硬件在窄域要给人以一种身临其境的感觉,需要支持的单眼分辨率要做到 8k 这样的级别。那么我们可以类比市面上今天销量最大的一款 VR 设备,Oculus Quest2,基本上它距离单眼 8k 还有很远的距离,但如果要在 VR 设备中造出一个单眼 8k + 的视网膜屏幕,就要把它的屏幕 PPI 密度做得更高才行,这本身是一个极大的硬件挑战。

下面我来说说刷新率。刷新率是一个很有意思的话题,早在 20 世纪以前刚发明电影的时候,已经证明人眼的刷新率是 24 帧,这也是直到今天电影行业基本普遍采用的刷新率。

那为什么电脑显示器 30 帧以下,我们的眼睛就会觉得很不适应,60 帧才能达到一个人眼的基本舒适感觉,跟 24 帧是不是相悖?当然不是,因为电影所用的帧叫做模糊帧,如果你把电影画面一帧一帧地慢放,会发现中间有大量的模糊帧存在,而人眼在面对大量模糊帧的时候能够还原出清晰且连贯的画面。但前提是我们要清晰的知道我们的下一帧是什么,我们才能使用模糊帧。

实际上我们在玩游戏时,因为不知道它下一帧画面应该是怎样的,所以只能渲染出清晰帧,用大量的清晰帧才能给人脑一种无缝的连贯感。不过,这里我也查过大量资料,也请教过一些专门研究人脑生理学的人,确实目前没有实验能够证明,到底什么样的清晰帧对人脑是合适的。根据电竞游戏显示器的经验看,基本上 60 帧已经满足了,120 帧能满足一些高速动作的场景,240 帧是发烧级。现在很多显示器是 240 帧,都是为发烧级而生的。另外,电影业也不是一成不变,今天很多电影也在追求更高的分辨率,如 2019 年由李安导演的《双子杀手》,就是首部 120 帧拍摄的动作片。

从云游戏和云渲染的角度来看,它的本质是音视频串流,是要经过编码。从编码原理看,是明确知道这一帧和上一帧之间的差异。想象一下,如果能很好地运用好模糊帧理念,其实能适当降低人脑对帧率的要求。但为了做好今天的逻辑分析,我后面的推演还是以 60 帧作为一个理想的数字,继续往下推演,因为我认为 60 帧对于全真视觉体验已经足够了。

这是当前 VR 显示设备的分辨率和全真视觉体验分辨率的差距,图中可以看出技术上的对比。最后一列如果要做到身临其境的感觉,需要支持 7000 x 7000 的分辨率和接近 5000 万的像素。对比目前的 VR 硬件可以看出,在元宇宙发展过程中,VR 视网膜屏幕技术还需要进一步提升,才能符合窄域全真显示体验,还需要提升 5-10 倍像素密度。

要想达到全真视觉体验,只做好窄域的显示是不够的,因为人的眼睛它会游走转动,所以在给人做显示设备的时候,不能只是把窄域做好,还要考虑用宽域的角度去看。

在我看来眼动追踪技术一定会诞生。近几年已经有很多论文在研究眼动技术,有很多论文和专利讲眼动技术。随着动态的去捕捉人眼的关注点,然后通过眼动来给不同位置渲染不同分辨率的显示。比如对人眼最关注的部分一定要有高清的分辨率,其它可以变模糊。根据眼动动态调节整个画面,只有这样做才能把码流率控制到一个可控的地步。

码流率到底是多少?这是我在国外找到的比较极限的评测值,用最新的两个编码技术,一个是 H265,一个是 AV1,然后基于 24 帧的画面给它进行调参,调到不影响显示效果的最低码流率。在 8K+24 帧分辨率的情况下,结合其他参数的优化,最低做到 40Mbps 左右的码流率。但这毕竟还是 24 帧,如果处于 8K+60 帧的话,基本上能做到 60Mbps-150Mbps 左右码流率。如果两只眼睛的话,还要乘 2,大概要做到 120Mbps-300Mbps 左右的码流率,这才能做到给人身临其境的感觉。

从 3D 渲染的角度看,如果要做到 8K + 需要什么样的渲染能力?目前,支持 8K 渲染显示的主要是 Nvidia GeForce 3090 系列,但看 3090 的指标,其中有两个指标需要非常关注,分别是功率和重量,因为功率决定了发热量,重量决定了人戴在头上的感觉。

除了需要做 3D 渲染以外,还有存储也是非常关键的。那么,我列出了一些国际支持 4K 的 3A 大作,这里存储的大小用了游戏素材的大小来说明。如果要做 8K 的话,它的材质清晰度远远大于 4K,目前的大部分游戏还没有做 8K 的优化,假设我们未来的游戏要做到 8K,每个游戏的存储量还要比这大很多,这就是未来我们做全真视觉体验中所要面对的场景。

这里我先说结论,元宇宙要给人完美的体验,必须要流化。什么是流化呢?就是我们不能靠可穿戴设备的算力去直接渲染,因为不可能在人的头上带一个有 1P 空调发热量的东西,也不可能带一个重 5 公斤的东西,说不定还有电磁辐射,所以必须把计算放在远端云上,通过 Streaming 的方式把它传过来再解码显示。

VR 设备主要有 3 个眩晕的原因:1、VR 中看到的运动有迟延滞后的现象。2、硬件调试问题,如瞳距产生的景深等问题。3、 眼睛看到的画面与重力感应不一致。其中最难解决的问题,就是运动延迟滞后,这里有个关键指标:M2P 延迟(Motion-to-photons),也就是运动到光子的延迟。当人快速移动时,看到的画面是否能在极短的时间内响应,如果这个响应跟不上,人类大脑会有被欺骗的感觉。一些实验调研得出结论:在低运动状态下,M2P 延迟不能高于 20ms;在高运动状态下,M2P 延迟不能高于 7ms,否则人脑就会产生眩晕的感觉。

如果我们既要串流,又要把延迟做低,只能把整个串流链路进行裁剪,包含了采集,编码,传输,解码多个环节,每个环节都需要优化时延。其中采集,编码,解码都能靠硬件技术来优化时延,但真正最难的在网络上,特别是进入互联网以后,成为了解决延迟的关键。这不是靠算法或者硬件单点解决,而是要依靠网络服务的基础建设才能解决。

说到网络延迟,先来看看本地网络延迟。如果在家里搭过串流的人,都知道 Wi-Fi4 不太靠谱,需要升级到 Wi-Fi6,它有一些技术,如多路复用 OFDMA,MU-MIMO,容错的机制等,使得它在内网传输时,不管在速度、大小、延迟都比 Wi-Fi4 好很多。我做过一个实测,Wi-Fi4 不仅 120mb 的码流率达不到,就连 60Mbps 码流率也非常吃力;而 WiFi6 在没有隔墙的环境下,跑到 800/900Mbps 基本没问题。这意味着我们必须对 Wi-Fi4 进行升级,不然本地网络会成为瓶颈,但要注意,Wi-Fi6 也不是完美但,比如它的穿墙能力很差,哪怕中间只隔着一个木墙,传输速度都会跌到 100Mbps。部署 Wifi6 要覆盖大房间,建议使用 Mesh 组网的方式。想要克服这一缺点,恐怕要等新一代的 Wifi 技术来解决了。

从串流的角度看,未来主流的串流模式到底是本地串流还是云端串流呢?本地串流为主是把强的服务节点放在了本地,云端串流为主就是把强的计算节点放在云端。这个问题我自己尝试过去解决,要搭好一个本地串流很复杂,它需要有计算机背景,很熟悉网络和 IT 知识的 IT 工程师来搭建,对普通人来说门槛很常高。本地串流就好比用户在内网部署 NAS,云端串流就好比用户购买 iCloud 服务,只要花钱就可以享受。NAS 用户一直很少,只有计算机极客才使用 NAS 服务,普通大众最终还是会选择 iCloud,我认为云端串流一定是未来的趋势。

下一步如果要做云端串流,一旦将时延问题放到了公网,今天的基础设施能不能做到呢?我经过研究,发现需要在中间构建一个边缘层,才能做到,这一点非常关键。

我们对数据做了实验分析,得出了上面的图表。图示横坐标是距离,纵坐标是时延。里面分析了端到端时延和距离是否强相关?结论是距离和时延是强相关的,30 公里是分界线,在 30 公里以内,基本上延时能做到 10ms 以内。

这张图是边缘计算的距离和时延分析图,从运营商角度看,在不同的算力节点位置分别对应的距离和延迟情况。20 公里以内的城域网节点,能把时延做到 5ms 以下。要做到 M2P 时延的 20ms 以下,再考虑采集,编码,解码的时延;只有将云计算的算力从千里之外放到我们的社区周边,才可能实现超低延时。

如果要覆盖全国城域网,全国至少要有多少个节点才合适?是不是一定要有几百万个呢?从全国的情况看,其实是不用的。因为城域网最少只需要到县和区的级别。全国有将近 3000 个县和县级市,考虑三大运营商再乘以三,大概 9000 个。如果在人口密集的地方多部署一些节点,差不多覆盖 10000 + 个城域网节点,就能做到大部分区域覆盖。

2、PPIO 边缘云计算服务

目前,PPIO 边缘云解决方案,已经在全国 30 多个省,超过 1000 多个县市及区域,帮助客户在算力上,实现从中心云向边缘侧的下沉。

我们的客户在使用服务并加入边缘节点后,数据传输的路径,不仅可以从终端到中心云下发,还可以从端到边缘层先进行预处理,然后再选择是否需要回到中心云。

通过云边协同,比如视频直播里的弹幕、编解码、特效渲染等需求,都可以放到边端来处理,速度更快,成本更低。

我们致力于将 PPIO 边缘云打造成未来元宇宙的基础设施,深化在超低延时直播、云游戏、云渲染、车联网、空间数字化等对超低延时有改善需求的场景上的探索。

这里我对整个行业的未来做了一个推演,得出一个神奇公式,音视频服务用量等于使用服务的在线用户数乘以算力用量。简单对公式进行拆解,使用服务的在线用户数等于设备数乘以联网率乘以平均使用渗透率,算力用量把它拆解为两类,一类是码流率,一类是渲染算力。

码流率主要消耗的是网络带宽资源,而渲染算力消耗的是计算资源,即 CPU 和 GPU。我举个例子让大家有体感,今天视频 CDN 全国用量为什么有 500T 呢?因为它有 70% 的量在移动设备,而全国有接近 8 亿的移动用户,每人每天 7~8 个小时使用时长,而 30% 的时间用于视频。

随着元宇宙的发展,人们想要有一种身临其境的感觉,需要用双 8K + 的分辨率、120~300Mbos 的码流率,比今天的 5M、10M 手机的码流率提高了几十倍。CDN 不需要强大的算力消耗,但是元宇宙渲染串流,它的 GPU 渲染计算消耗巨大。假设十年之后,我们的音视频体验从手机过渡到元宇宙体验,码流率至少有几十倍的提升,而渲染能力基本上强于我们现在最强游戏 GPU 算力。可以推测出,到那时音视频带来的算力总用量将是今天音视频算力总用量的几百倍。

最后,元宇宙就像信息技术中的 “登月工程”,它虽然遥远,可能十年,可能二十年,我们才能到达这一天,但是在这个过程中一定会带来各种各样技术的革新,包括我们 PPIO 所做的边缘计算,也包括编解码、显示硬件、云游戏、实时渲染、AR/VR、无人机器人操作等等。我相信元宇宙一定能成,即使它不成,它所带来的技术变革也一定会深深地改变人类的生活。

这就是我今天演讲的所有内容,谢谢大家!

文章只代表原作者观点,边缘云致力于打造独立、客观的资讯信息平台,转载请注明来源于边缘云信息平台。
分享到
长按二维码关注

参与讨论 抢沙发

评论前必须登录!

立即登录   注册

边缘云生态研究

关于我们