即构冼牛:去中心化的语音视频社交应用将流行到2018年

  • 内容
  • 评论
  • 相关

来源: LiveVideoStack        时间: 2017-10-26


在LiveVideoStackCon 2017前夕,LiveVideoStack采访了即构科技资深技术专家、架构师冼牛,畅谈了互动音视频应用的技术实现以及未来的发展趋势。

文 / 黄钰

责编 / Ant

LiveVideoStack:请简要介绍下自己,以及目前主要的工作方向,对哪些技术或领域感兴趣?

冼牛:我应该是2003年开始涉足语音视频实时通信产品的开发,当时是在北邮读研究生,为国家经贸委做视频会议系统,专注于流媒体实时传输协议这一块。十来年的工作中服务过爱立信,FactSet和分期乐等企业,有五六年时间都在做软件开发和系统架构的工作。在即构科技我专注于语音视频实时通信系统的架构,传输协议和编解码,探索即构科技的技术创新和市场需求的最佳结合点。

我对两大领域感兴趣:

● 其一,语音视频实时通信技术在互联网社交的场景中如何落地和创新;

● 其二,随着终端设备(比如说VR/AR)的升级,传输通道(比如说5G)的升级和资费的下降,语音视频技术和产品形态会有什么本质的变革。

LiveVideoStack:为游戏量身订做实时游戏语音技术方案,要考量四大因素(成本、延时、音质、系统影响),从中找到平衡点。游戏实时语音&视频 解决方案的成本主要在哪些方面?对于在线用户量较大和较小的公司/产品,针对高昂的带宽费用该如何选择合适的解决方案?

冼牛:游戏实时语音&视频解决方案的成本主要体现在带宽上,语音视频云服务的收费主要是按照带宽/流量来收费。

游戏产品的显著特点是并发量极大,互动要求较高,用户越多相应消耗的带宽也就越多,这是一个种幸福的痛苦。

选择合适的解决方案可以从两个角度来看,一是用户量,二是应用场景,但主要是应用场景,毕竟用户体验第一。

用户量比较大的产品,可以考虑主要使用窄带语音(人声语音够用了),减少或者不使用视频,视频的码率也可以采用比较低的,在成本和体验之间寻找平衡点。另外,如果真的用户量很大,其实可以和音视频云服务商谈一个比较合适的折扣。

应用场景大致分为竞技类游戏和休闲类游戏:

● 竞技类游戏一般主要使用窄带语音就可以达到不错的效果,视频不是必须的。

● 休闲游戏对视频的要求高一点,可以有选择的开或者不开视频,把视频做成增值服务。

另外视频的分辨率和清晰度也可以根据成本要求来调节,达到成本和体验的平衡。

即构科技的实时语音视频通信方案支持单独只拉取语音流或者视频流,接收端可以通过参数告诉服务器它单独只需要拉取音频流,还是视频流,还是音频和视频都要。游戏厂商可以根据业务场景的需求和成本来决定是单独拉取音频,还是单独拉取视频。毕竟,某些场景下,只听到声音就可以沟通,或者用户不说话的时候,只看到视频就可以。这样一来,成本也会相应地降低,而且不会伤害用户体验。

LiveVideoStack:狼人杀通过音视频连麦做社交,请问这种音视频应用与之前秀场直播相比,在技术层面,有何不同?存在哪些实现难点?

冼牛:从产品形态的角度来说,狼人杀和秀场直播差异很大;从实现技术的角度来说,两者也是有相当的差异的。首先,语音频宽的差异。狼人杀是人声通话,秀场直播是包括的人声和音乐声,这导致选取的编解码器会不一样,延迟会有差异,回声消除的策略也不一样。

另外,秀场直播中进行互动直播的是少数几个主播,绝大部分的还是围观的用户,他们是从CDN拉流播放的。狼人杀的所有用户都是对等的,

有些狼人杀产品允许插麦双工对话,那么就需要从核心媒体服务器推拉流,成本相对较高;如果是轮流说话,那么就可以只从CDN拉流,这样成本也可以下来。

● 秀场直播的难点在于连麦互动的过程中,流媒体的实时传输还有人声音乐声的声音前处理。

● 狼人杀的难点在于在用户量很大,交互需求很强的情况下,如何做到实时传输还能控制成本。

LiveVideoStack:连麦中的回声消除如何与RTMP和 WebRTC结合的?

冼牛:回声消除技术属于语音前处理,在发送端进行编码之前就完成的,还没有到实时传输环节。回声消除技术一般都是采用私有的算法的,每家都不一样。一般来说,回声消除包括两大步骤:1、线性滤波。2、非线性处理。这两个步骤都是在终端完成处理的。

RTMP协议是一种兼容CDN的数据传输协议,即构科技采用了RTMP协议和基于UDP的私有协议进行实时语音视频传输。在涉及到需要通过CDN进行分发的场景,会使用RTMP协议,或者把基于UDP私有协议转码成RTMP协议。在涉及到跨国跨洋等延迟大丢包率高,或者国内的弱网环境,会使用基于UDP的私有协议。一般来说,为了获得超低延迟和弱网下比较优质的体验,都会使用基于UDP的私有协议,然后在转推CDN的时候进行转码,转成RTMP协议进行传输。

即构科技没有采用WebRTC,当初评估的结论认为,如果采用WebRTC协议,需要投入大量的时间和精力去研究,还不如自己完全开发一套系统。即构科技的团队在语音视频方面的研发经验积累超过16年,在QQ语音视频也有很好的积累,因此有信心去自研,最后也做到了而且效果很优秀。

WebRTC其实是把双刃剑,它是一部优秀的教科书,大大的降低了实时语音视频通信技术的入门门槛,但是同时也带来巨大的风险——如果对WebRTC的理解不够透彻(如果能理解透彻的话还不如自己研发),在技术升级和响应客户需求方面,就会慢很多,甚至很多事情做不到,严重伤害团队的战斗力。市场上基于WebRTC厂商,其实都会面对这个严峻的挑战,往往骑虎难下。

LiveVideoStack:最近相当一段时间王者荣耀这个游戏很火爆,组团集体开黑时加入实时语音对游戏的流畅度会有多大程度的影响?

冼牛:在狼人杀社交中,加入视频也需要更多的资源消耗,多路推拉流对于手机的性能也有更高的要求,例如流量、功耗、系统版本等。我相信狼人杀和王者荣耀在这方面可以类比。

无论是王者荣耀还是狼人杀,对手机的性能都是一个挑战。关于手机的软件和硬件需求,请见下面的技术规范表格。

即构对手机的软件和硬件的推荐配置

语音视频SDK要照顾到手机功耗的问题,游戏系统本身就是要耗费大量的系统资源,语音视频SDK要尽量少占用资源,不能对游戏系统的体验造成干扰。

即构科技这边的做法是去监控游戏系统的资源开销,采取一些策略去调整实时语音视频SDK的消耗,游戏系统消耗资源多的时候,实时语音视频SDK就降低消耗;如果游戏系统消耗资源不多的时候,实时语音视频SDK才适当的提高质量。基本上实时语音视频SDK和游戏系统之间要达到到一个和谐共生的关系,绝对不能伤害游戏的体验。

LiveVideoStack:您在雷锋网、InfoQ等多个平台多篇文章中提到2016年是直播元年,2017年是狼人杀元年,互联网界一个产品的兴衰更迭周期越来越短,您预计下一个风口会是什么?

冼牛:产品兴起的频率会越来越快,产品迭代的周期越来越短,这是因为互联网团队越来越成熟,也因为语音视频实时通信等基础能力被沉淀下来,以云服务的形式提供给市场,让所有互联网团队都可以因此而得益,可以借助第三方的实时语音视频SDK即时构建自己的语音视频产品。以前语音视频实时通信系统门槛很高,即使是大厂商都未必有能力短期内研发出来并且跑稳定。现在有了第三方实时通信云服务商的技术积累,开发者可以轻松的借助实时语音视频SDK去实现自己的梦想。借用毛主席的一句话来描述这个情形:“雄关漫道真如铁,而今迈步从头越。”

互联网界的下一个风口,我不敢去斗胆预测,我只看说我已经看到的一些迹象,语音社交和视频社交的产品今明年会有一个比较好的发展。原因有二:

● 其一,开发者已经接受了采用第三方实时音视频SDK去开发语音视频产品的做法,产品迭代的速度将会大大加快。

● 其二,经过直播和互联网电台等产品形态的迭代,中心化的社交模式(直播)正在快速地走向去中心化的社交模式(狼人杀、交友和陪聊)。


看完采访报道后,想要申请免费试用?
请访问即构官网 https://www.zego.im/

评论

0条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注