音视频技术持续进击，直播互动场景会如何“进化”？- ZEGO即构科技

小到远程会议、直播娱乐，大到元宇宙话题中对于未来互动方式的讨论，音视频技术与我们生活方式的变革息息相关。目前，音视频赛道的技术突破，也给直播互动带来了很多新的玩法和形式。音视频领域有哪些重要的突破？人们对于直播互动有哪些新的需求？音视频技术攻克技术难题有哪些思路可以借鉴？

此前，ZEGO 即构科技视频处理工程师李凯现身 InfoQ 极客有约，结合自己丰富的职业经历，给出了很多关于音视频技术发展、突破以及直播互动玩法持续“进化”等方面的思考和见解。以下内容节选自当天的分享，InfoQ 做了不改变原意的编辑：

嘉宾介绍

InfoQ：请李凯老师介绍一下自己，可以着重聊聊工作经历。

李凯：我目前在即构科技工作，主要负责视频处理相关业务、技术研发以及 AI 推理引擎优化的工作。工作 18 年以来，做过端到端涉及到的很多业务和技术领域，举例来讲，在 2007 年做了基于深度摄像机裸眼立体视觉显示系统；也做过比较小众的业务，比如说十几个摄像机投影到一个弧形幕上自动拼接的校正系统。总的来说，一直在视频处理领域，在传统技术、基于 AI 的视频增强处理技术，以及包括摄像头 3A 的一些算法方面都有涉足。这些年也申请了一些专利，署名专利 120 多篇。

InfoQ：音视频技术的演进和迭代非常快，基于您过往数十年的从业经历，您有哪些印象比较深刻的技术突破点，可以选几个分享一下吗？

李凯：从早期看，音视频都是朝着更加高清、更加流畅、更加实时的方向不断去演进，再往前发展有 3 个技术趋势：

第一：沉浸感，即面部的五官、声音的传达让用户有沉浸体验；

第二：高保真，即在虚拟空间中，通过全息投影或者虚拟远程控制的真人形象；

第三：强交互，元宇宙社交领域中强调强交互，同时我们与客户和用户交流时，也会涉及到强交互。

基于这 3 个技术发展的方向，举两个印象比较深的例子。

第一个是在 2007 年，我们基于深度摄像机裸眼立体显示系统，做了一个端到端的 demo，主要目标是希望能够从立体显示器中，仅仅通过裸眼看到立体、真实人物形象。

第二个是在 2020 年，即构的一个客户做了具有强互动属性的伪 AI 直播，简单来说，就是将类似 VIPKID（一节课成本 250 元）的真人直播做成录播，学生可以与老师实时互动交流，与直播课程的体验相同，小朋友在这个过程中也可以感受强互动的学习体验。这个技术的好处也显而易见——降低了课程的成本（伪 AI 直播成本一节课 5 元），同时也能给用户带来非常好的体验，这些都是技术进步带来的变革，让不少技术欠发达地区也能享受高品质的课程服务。

直播互动新场景及面临的技术挑战

InfoQ：2020 年被称作元宇宙元年，近几年元宇宙的概念也被广泛讨论，今年还出现了元宇宙直播间之类的新场景，您观察到还有哪些比较有趣的应用场景，可以展开聊聊。

李凯：对于我个人而言可能无法去定义有趣，但是客户对所谓“有趣”是最有发言权的。目前即构强调为用户搭建更多、更好的设施来服务客户，这也是从用户以及客户的需求出发的。在客户的反馈过程中，这两个场景比较典型：第一个是强社交的场景，在元宇宙空间里一切虚拟化，人与人之间一对一的沟通交流以及多人在虚拟空间中的强社交需求非常多，这种交流包括五官的感知、空间音频的临场感，以及语音交互、肢体交互、表情交互等；第二个是娱乐互动的场景，比如游戏娱乐、直播娱乐、点播等等，这些场景的应用前期大多由游戏厂商参与。

InfoQ：业内预测元宇宙直播可能会成为直播的下一个风口，您对这个预测怎么看？元宇宙直播会成为风口，背后的依据是什么？

李凯：2020 年开始我们投入高保真数字人研发，2022 年在国际期刊发表文章，即构一直在研究直播技术，再加上对行业的观察，我认为高保真虚拟数字人直播会成为一种趋势。同时，基于人脸三维重建，肢体动作的捕捉、驱动、渲染、合成，以及智能交互等数字人技术的发展，会使得数字人的制作成本极大降低，让更多的用户体验到高保真虚拟数字人的直播。虚拟数字人最大的优势是什么？答案是“可控”。不同于真人直播中可能要面对主播跳槽、单飞的情况，虚拟人主播服从一切指令。另外，在元宇宙直播间，我们可以为用户搭建、定制随时切换的场景，搭建成本也非常低，通过数字化技术，特别是基于 NeRF 技术的发展，能给用户提供全新的体验。

InfoQ：如今，用户对直播的沉浸式体验、高清分辨率之类的要求越来越高，除此之外，用户在新型直播互动场景中的需求还有什么样的特征，对哪些功能的要求更多？

李凯：在和客户实际的交流中，我们有一种体会，那就是用户需要的是强悍的基础能力，能够在移动端的覆盖面更广，因此我们也在强调高保真，或者说高清、流畅、实时。但是在移动端仅仅实现高清实时的难度都是非常高的，比如说某个客户用到我们的超分技术，需要在移动端实现实时超分，将 540P 超分到 1080P，目前能做到这一点的公司并不多；再比如，安卓的某些机型能不能跑 540P？这些都是比较实际的问题，也反映了企业有没有能力将超分、甚至插帧、倍帧技术做得更好。所以回归到问题本身，由于用户或者说客户是在付费体验，我们能不能加强他们的技术能力？以东南亚、印度的客户为例，他们的帧率可能只有七八帧，且机器性能比较差的情况下，能不能在移动端实现插帧？这是第一个重要的特征。

第二，从客户、用户的角度来讲，他们在使用产品的时候，不仅想要听得见和看得清，与对方 1 个人或者更多人互动交流，更进一步的是想感受这个人就坐在身边，好像在面对面说话的强互动过程，这也是即构未来想要推出的加强交互的技术。

InfoQ：新型直播互动场景非常受到关注，像沉浸式直播、同屏互动这些场景中，给音视频技术带来了哪些挑战？哪些能力还需要提升？

李凯：像刚刚提到的强交互，对于实时性也就是抗弱网的能力要求很高，同时，音视频、空间相关的技术也需要做好，这两点是比较基础的要求。另外，还涉及到语音交互以及动作的交互，比如说自己的动作反馈出去之后，对方的动作能不能立刻反馈回来，这才是强交互的过程。刚刚说到的都是软件对软件的场景，那么如果要在硬件上，比如说一个和真人大小相同的大屏幕上实现，这样的体验感、交流感会更强。还有跨屏互动，这个场景比较常见，两个人一左一右，那么左边的人抛一个东西，能不能到右边，右边的人能否通过视觉，或者是带一个手套来感觉到，这样的空间交流也很有挑战。实际上，以上都是我们想象出来的画面，想要真正实现还是任重道远的，目前我们用的更多的是移动端的 4G 场景，但如果 5G 真正被普及开来，时延、高清应该也不会有太大的问题，而是会往交互空间临场感、语音方面去发展，相信一定会有更多的应用和玩法。

InfoQ：以虚拟直播的场景为例，大家对主播还有直播的场景的真实度有很高的要求，这其中涉及到哪些技术来支撑？

李凯：在这个领域，即构和我们的友商一直在路上，想把这个能力做得更好，这样的竞争对于生态圈和用户来说都是一件好事。

实际上，我们在这个生态圈中，更强调向更高清、更流畅、更实时的方向不断精进，包括音视频互动、场景化 AI 降噪方面的技术能力，比如说家里小朋友上网课的时候，厨房很吵，这涉及到主动降噪和空间 3D 音效的技术。再具体来讲，比如沉浸式音频技术，即基于声道的音频（Channel-based Audio，CBA）、基于对象的音频（Object-based Audio，OBA）和基于场景的音频（Scene-based Audio，SBA），把这些核心底层的算法做好，能给普通用户带来完全不一样的体验。

实时互动 RTI 能力解读

InfoQ：今年 10 月，即构提出了实时互动 RTI 来总结概括 ZEGO 的能力，这项能力应该怎么理解？

李凯：作为即构的成员，首先要向所有友商致敬，其实所有概念的提出，都是为了能够将生态圈做得更好。当我们将 RTC 能力健全之后，在 RTC 的基础能力之上，叠加基于 RTC 的增值服务业务。实时互动RTI（Real-Time Interaction），代表一切还原现实甚至超越现实的实时互动场景下，所需要用到的产品和技术能力的综合，除了核心的 RTC、IM、直播之外，还包括Avatar、AI 视觉、状态同步等，这样的生态圈需要我们和友商一起做好。

实时互动 RTI 的技术综合主要包括更高清、更流畅、更实时，沉浸感、高保真、强交互，视频技术包括：移动端实时插帧、客户端实时超分、主体分割与传输、弱光增强，身临其境的音质包括：场景化 AI 降噪、空间音频、范围语音，无限玩法&场景包括：万人连麦、多人的状态同步等丰富的维度方面。

下面来举一个具体应用的例子，我们的一款产品叫做小艺帮，是基于实时 RTC 的实时考试增值业务，主要提供给教育行业的客户。因为高校已经不满足于产品仅有互动交流和点击屏幕进行考试的功能，而是需要更多的服务，比如说监控考生有没有作弊、有没有第三方答题、有没有人在考生的镜头前后，或者会不会有某个位置会存在作弊的可能。另外，在考试监控或者学习系统中，能不能在学生弹钢琴或者唱歌时实时打分或者纠错，告诉他们哪里做的不好。在传统的 RTC 技术已经不能满足用户需求的情况下，就需要 ZEGO 不断打磨挖掘新的技术，增加实时互动的能力和手段。

因为我们最典型的用户场景是基于移动端，前面讲到基于移动端的插帧、超分、抠图，忽然想到低照度光线增强技术，也就是在黑暗的房间视频时，当灯光关掉，如何看清楚用户的脸。之前有位东南亚客户提出要求：在灯光关掉、屏幕很暗时，要能够看清用户的脸，并且要保证 720P、30 帧的帧率，这在技术上存在非常大的挑战。不过后来我们攻克了这个难点，用 2 毫秒 720P 低照度增强解决了这个问题，虽然低照度增强会带来一点噪声，但用户还是很满意的。

即构在 AI 方面的能力也有一些例子，比如说在超分方面，我们的目标是尽可能覆盖更多机型，目前搭载骁龙 660 处理器的手机分辨率 640×480 两倍到 1280×960 大概 52 毫秒；搭载骁龙855 处理器的手机分辨率 640×480 两倍到 1280×960 大概 20 毫秒，近期，我们的某个大客户需要用到 960×540 超分到 1080P，我们也能满足他们的实时场景需求。

还有大家印象中可能比较简单的绿幕抠图其实也有很多技术难点，绿幕最典型的问题是颜色溢出，而客户提出了新的要求 —— 既要保证时效，又要保证颜色不能溢出。这里面涉及到能不能抗噪、能不能将褶皱抠除干净等问题，这些问题看起来简单，但是实际处理很有挑战，我们通过大小只有约 5 KB 的三四个卷积模型满足了客户的要求，将大家认为简单但却没有做到很好的技术又深入挖掘把它做好。

刚刚提到的 AI 语音降噪、人声检测、空间音频、万人连麦以及多人状态同步等等的探索，也是即构在丰富技术生态、增强用户在各个维度的体验的探索，同时也能提升即构方方面面的基础能力和增值服务能力。

InfoQ：目前实时互动 RTI 在画质、音质以及玩法和场景方面都有非常突出的优势，想了解即构在实现这些能力的过程中，都遇到了哪些技术挑战？

李凯：刚刚聊到的技术点，有基于传统技术的，也有基于深度学习技术的，下面举一个基于深度学习技术的例子 —— 超分。

超分的问题可以从哪些方面入手来解决？

首先要明确，如果深度学习模型想在安卓机型运行起来，模型不能大。这是因为模型大、算子多的情况下，再好的深度学习推理引擎也无法提升速度；同时，模型大会占用过多的内存，超分是“增值业务”，RTC 才是基础能力，要避免内存占用大的情况发生。但是模型太小，超分效果会降下来，这就是问题所在，因此模型怎样设计，用知识蒸馏还是大模型训练小模型，这是模型设计方面的问题。

第二是关于数据，在了解业务详细情况下，将数据蜕化的过程模拟出来，就能使超分上一个档次，甚至比使用小模型的效果更直接。

最后，是模型训练、模型推理的量化问题，涉及到压缩、模型编译的工作，像专门针对超分做推理引擎优化，这是端到端的流程，需要有不同方面的技术人来把这个技术点做好，在这方面大厂可能会面临难以将跨部门资源集成起来的问题，很多厂商推理引擎优化是一个独立的部门，数据、模型设计、移动开发可能都分属不同的部门，如何将系统工程的力量整合起来，快速构建模型，在这个问题上，即构也在不断完善优化，希望给用户更好的体验。

InfoQ：有没有更多具体案例可以给我们分享一下，RTI 能解决什么问题、适用于哪些场景？

李凯：在互动直播场景里，语聊房、虚拟空间等都会用到 RTI 技术。以语聊房为例，它为用户提供一个匿名分享的交流空间，但是传统语聊房的匿名功能会带来一个问题，那就是用户构成会非常复杂，可能会有各种各样的背景噪声。另外，语聊房上麦人数有限，怎样构建情绪沟通以及肢体、姿态的沟通？对此，即构做了很多事情，包括降噪、空间音效、高保真技术的应用，同时，基于即构 Avatar 虚拟形象把人体动作、表情驱动起来，美化声音甚至情绪，实现比传统语聊房更佳的沟通体验。另外通过实时互动 RTI 可以突破传统 RTC 上麦人数的限制，让更多人自由发声。

未来展望

InfoQ：基于元宇宙概念描绘的画面，以及音视频技术的进步，您认为未来还会出现哪些新的现象或者需求？

李凯：目前已经可以看到一些场景和布局了，很典型的就是自动驾驶、远程巡检或者诊断，我了解到在工业 4.0 里面，带一个 VR 眼镜就能在工厂中远程指导用户，或者远程会诊；车险远程定损，目前定损需要按照定损员指示拍指定的位置，而远程定损则只需要工作人员带上 VR 眼镜，用户按照指示用手机绕着车拍，实时互动，效率会提升很多；此外教育信息化、远程签证方面也可能有应用。我认为 RTC 基础能力做到足够好、5G 网络发展足够好的情况下，还会出现很多现在无法想象的应用场景，包括智能机器人，人类可以通过监控智能机器人，让他们做事情，随着技术的发展，更多的应用会超出我们的想象。

InfoQ：围绕刚刚您提到的技术趋势，即构在后续有哪些考虑和布局？

李凯：技术的发展最终是要解决客户的问题，因此即构会把客户的需求和痛点记在心上，尽可能地提升基础能力。就像前面说到的，在前瞻性的技术上我们一直都有研究和投入。2022 年我们在国际期刊 TOMM 上也发表了文章，在与 RTC 相关的音视频技术、基于 AI 高保真技术、人脸三维重建、以及高保真 NeRF 等方向上，我们都有投入和研究。同时我们也希望储备自己的能力，希望随着硬件的普及化以及技术成本的逐渐降低，我们可以更快地给用户提供解决痛点的方案，与行业各厂商一起共建生态圈。

互动 Q&A

InfoQ：个人理解像语音降噪这类技术大公司都做标准化了，一般的公司很难做起来，如何破局呢？

李凯：这是一个好问题。聊语音降噪就会涉及到深度学习的内容，我们在一个场景下用数据去训练，但是换一个场景效果不一定好，举一个典型的例子就是，当时我们用第三方语音识别，而第三方语音识别中数据库来源均为成人的声音，但是用户的场景是儿童语音场景，因此识别率非常低，只有 70-80%；当把儿童声音的数据库加进来之后，识别率提升到 90%，这是非常典型的情况。AI 目前的泛化能力是有限的，很多情况下大厂希望做到标准化，也就是在某个场景训练的数据可以用到其他场景，但是目前是做不到的，只能够在特定的场景实现，因此这也给了很多中小厂商和大厂 PK，甚至可以做得比大厂更好的机会点。

InfoQ：做了两年驱动开发，想转行进音视频，从哪些技术入手，有什么建议吗？

李凯：其实我也是转行的，我刚毕业的时候在南昌大学当了一年数学老师，后来转行做码农，刚开始做算法相关的工作，后来转到了音视频行业中，刚开始做传统音视频处理技术，后来做 AI 技术，然后做框架推理引擎优化、设计模型。我的建议是如果想要转行，先把音视频技术中某些单点做好，或者能够把别人的demo 跑通，去理解代码和算法，然后基于用户的场景优化这个算法。第二是将不同厂商的优缺点对比琢磨透，选择好路线和自己的定位，先把单个技术点做好，再拓展做其他的东西。