【融云视角】沉浸式音频与通讯技术未来趋势

技术干货
2021年6月15日

回顾互联网发展历程，从 PC 局域网到移动互联网，互联网使用的沉浸感逐步提升，虚拟与现实的距离也逐渐缩小。利用沉浸式音频与通讯技术未来将会很大程度提升用户的体验感，而在虚拟与现实的元宇宙中，对沉浸感、参与度、永续性等方面都有很高的要求，因此将会由许多独立工具、平台、基础设施、协议等来支持其运行。随着 AR、VR、5G、云计算等技术成熟度提升，基于沉浸式音频的通讯技术在元宇宙有望逐步从概念走向现实。

本文将和业内伙伴一同探索元宇宙技术发展对通讯行业带来的影响，未来沉浸式音频的发展趋势以及通讯技术在 VR、AR、AI 行业的应用。

元宇宙概念简述

元宇宙（Metaverse）是指打造一个与现实生活平行的、体验几乎无差异的虚拟世界。人类可以利用虚拟身份在虚拟世界工作、社交互动、娱乐游戏，甚至买卖交易。总结出来就是，在元宇宙中，你可以想什么就有什么，无边无际的想象力给予你无限的自由。

Metaverse 元宇宙所创造的独立于现实世界的虚拟数字第二世界，使用户能以数字身份自由生活。VR、AR、AI 作为 Metaverse 的技术基础将迎来高速增长期。虚拟现实行业 2020 年全球市场规模约为 900 亿元人民币，预计 2020-2024 年均增长率约为 54%。据中国信通院预测，2021 年开始全球虚拟设备出货量将加速，预计 2024 年可达 7500 万台。（数据来源：天风证券《Metaverse研究报告》）随着 VR 产业链的逐步完善，VR 对行业的赋能会展现出强大的飞轮效应。

那么我们怎么样才能从现实世界，逐渐进入到元宇宙世界中去呢？

真实感的维度

如果把元宇宙场景中，用户体验到的真实感划分为两个维度：“沉浸感”和“自由度”。两个轴的起点，则是原生感知现实，例如正在阅读这篇文章的你。沉浸和自由的深度，共同决定了元宇宙中的用户体验是否足够真实。

真实感的等级

Lv1：从原生感知初步向虚拟世界迈进的阶段

Lv2：让大脑感觉部分真实的虚拟世界

Lv3：完全骗过大脑的全真虚拟世界

Max：和原生世界深度相同的虚拟世界

元宇宙现阶段发展趋势

现阶段元宇宙概念的产业链，例如互动体验、人机交互等，大部分能力范围在 Lv1-Lv2 之间，仅有少部分尖端企业向 Lv3 迈进。未来阶段如何实现 Max 的目标，是否能真正实现，目前还无法得知。

Lv1-Lv2 范围的产业链已日渐成熟，目前已经实现 3D 体感电影、开放沙盒游戏、VR、AR、MR 游戏等应用。

如果说 Lv2 阶段的用户体验，是由某几个沉浸或自由因素堆积而成的“半真实”体验，那么升级到 Lv3 阶段的“全真实”体验，可以说是质的飞跃。“沉浸”和”自由”必须做到足够的深度，相辅相成。数字化的视觉和听觉感知体验是否可以完全骗过我们的大脑？3D 引擎是否能提供足够的自由体验？AI 是否能做到永续性、自生长？网络传输是否可实现无延迟？只要任何一个因素存在缺陷，就不可能真正实现“全真实”的用户体验。可见从“半真实”到“全真实”，实现难度会陡增。

到 Lv3 之后，元宇宙下一个阶段，就是实现终极目标，让人们的意识永生在虚拟世界。影响这一目标实现的因素，除硬件、软件、通讯等科技因素之外，还涉及到生物学和医学范畴。是否能真正实现，目前来看仍是未知。

头部厂商的进展

1.Facebook

2020 年 9 月，Facebook Connect 2020 大会上，Facebook 发布了 AR/VR 十五大重要战略规划。会上公布的一系列 AR/VR 信息，涵盖最新硬件产品、软件产品、解决方案、开发者服务、前沿技术研究等。

其中 VR 头显 Oculus Quest 2 依靠平台提供的游戏和软件支持，已经成为目前市场上主流的 VR 头部穿戴设备。

值得关注的是，在会上发布的Project Aria 是Facebook 构建的帮助研究人员理解 AR 眼镜所需软件和硬件的研究设备。它使用传感器能从佩戴者角度捕捉视频和音频，通过GPS 计算位置，捕捉多声道音频。

2. Apple

美国知名科技博客 Scobleizer 预测，苹果在未来一年内公布的产品计划中，将会包含一款全新的 AR/VR 头显。具体来讲，苹果计划在未来十年推出多款产品，包括 AR/VR 眼镜、AR/VR 隐形眼镜(分别在 2022 年到 2025 年之间推出)。这意味着苹果要从 2D 屏幕、界面和体验向 3D 形式升级。

Scobleizer 表示：苹果 AR/VR 头显将同时覆盖使用者的双眼和双耳，戴上之后你不仅看不到周围的环境，也听不到周围的声音。也就是说，苹果 AR/VR 头显的一大特点是视觉和听觉的沉浸感，有趣的是，它并不会将使用者与外界完全隔绝，也许可以通过 AR 透视功能让你看到和听到周围。在苹果 AR/VR 头显开机之后，你才能看到周围环境的虚拟影像，并且听到周围的声音。

值得关注的还有苹果车载环绕音频技术。Scobleizer 表示，该技术可以从汽车内部、家里等各种地方营造环绕式声音效果。利用苹果 AR/VR 头显的 LiDAR 模组，可以实现 3D 音频在空间中的定位。通过亲自体验，他表示该技术可模拟亲临现场的音频效果。

RTC 通讯技术的现状

RTC 的音频传输技术，是通过采样、量化、编码、压缩，实现模拟信号到数字信号的传输。目前常用的是双声道的采样，即左右两个声道的立体声，再经过压缩处理，传输时占用带宽少，符合目前大部分业务场景对传输效率的需要。随着5G 到来，网络带宽不再是问题，在保证传输效率的基础上，人们会进而追求 3D 沉浸式的音频体验。双声道采样将不再符合未来需求。多声道采集（例如 Ambisonics 麦克风用四面体阵列形式采集 4 个声道）传输，或许成为未来通讯技术的主流。

除了上述办法使用户实现沉浸式的音频体验，还有没有其他方法？我们先来看一下，目前成熟的沉浸式的音频技术有哪些。

沉浸式的音频技术

目前，沉浸式音频类型主要分为三大类：基于声道 Channel based audio （CBA）、基于对象Object based audio （OBA）、基于场景 Scene based Audio （SBA）。Scene-Based Audio 主要是用来描述场景的声场，其核心的底层算法是 HigherOrder Ambisonic（HOA）。

根据业内专家分析的结论，未来 VR 音频专业领域则主要是 Object based audio 和 Ambisonics（HOA）两大趋势。

那么 VR 音频技术，可以应用在哪些 VR 社交场景中呢？

与社交场景的对应

在元宇宙发展的现阶段，社交场景主要存在于 VR 游戏、VR 直播、和 VR 社交软件上。

因为 Object based audio 有大量的数据和运算，除了声道的音频外，还有关于声源的metadata （元数据）：声源（位置、大小、速度、形状等属性）、声源所在的环境（reverb （混响）和 reflection（回声）、attenuate （衰减）、几何形态），所以它更适合用于 VR 主机上的游戏。

Ambisonics 的特点是声源贴在提前渲染好的全景球上，所以玩家不一定能够将声源放在场景中想放的位置，即使有声源也被压缩在了这个球上。它适合移动端和流媒体视频。

如何利用沉浸式音频与通讯技术提升未来体验

通过以上分析，我们怎样利用 RTC 的音频传输技术实现用户沉浸式的音频体验呢？

1. 直接传输沉浸格式的音频

使用 Ambisonics 技术，声音的采集和处理都交给 App 或者 VR 声音引擎，RTC 通道仅负责进行传输。

2. 预处理后交给接收端还原

对应 Object based audio 技术，声音的采集用 Ambisonics，但是在传输之前，降维到双声道进行编码和传输，这样 Web 端或移动设备能兼容。然后接收端通过双声道数据，再还原回 Ambisonics，根据虚拟场景的变化实时渲染，最后在用户端播放。

3. 通过文字与语音的转换技术实现

如果虚拟场景中是二次元的世界，我们不仅要避免人声的直接还原，还要让人物语音符合二次元世界中的设定。

对于这种情况，可以借助融云 IM 技术，以及语音和文字的互转实现（asr 和 tts）。人声采集后先转成文字，再输入到声音建模中，最后转成二次元人物的声音。这种方法可以让每一个玩家的语音都符合游戏世界中的设定，从而增强沉浸感。

结束语

相关技术的不断升级进步，会使元宇宙概念继续向前发展。VR、AR、5G、AI、专业引擎和平台等产业链的发展，也会继续带动用户对沉浸式体验的追求。沉浸式音频通讯有可能会成为未来通讯的主流。我们对市场保持关注，希望和业内伙伴一同深入探索研究，沉浸式音频与通讯技术或可成为通讯业务未来的突破口。

标签: 融云分析, 通讯技术, 音频