腾讯音视频实验室负责人刘晓宇:再到支持每天12亿分钟通话

网络整理 2022-04-23 02:26

1999年，正式加入新版聊天软件OICQ，正式加入语音通话功能，随后视频通话。18年后的今天，QQ月活跃用户已突破8亿。更惊人的数字是，在高峰期，QQ 用户每天的音视频通话时长高达 12 亿分钟。

在QQ的发展过程中，其背后的音视频通讯技术也经历了外部采购，到成立QQ音视频技术中心，自主研发引擎，再到腾讯音视频的发展壮大，视频实验室，开放了自主研发的SPEAR音视频引擎。过程。现在，随着全民直播时代的到来，腾讯研发并开放了一体化直播解决方案，并将腾讯直播SDK应用于斗鱼、虎牙、快手等顶级直播平台。这背后，是技术和经验的不断进步和积累，以及腾讯对中国复杂网络状况的智能应对。

日前，腾讯音视频实验室负责人刘晓宇接受了雷锋网的采访技术qq网，谈到了这些问题，并向我们介绍了在精细化运营和5G技术到来之际，还有哪些新的直播方式。

（腾讯音视频实验室负责人刘晓宇）

腾讯音视频实验室：从零开始支持每天12亿分钟的通话

在偏远的斯坦福校园，一位机器学习教授上课的场景被高清摄像头捕捉，经过编码器压缩，分段发送，通过互联网传输到你的电脑，然后被玩家实时解压。加工，可以学习前沿课程。

流媒体技术为互联网带来无限生机，当场景变为音视频通信时，其背后的技术更是翻倍不止。除了双向反馈外，实时通信对延迟的要求非常高；此外，回声处理也成为了一个新问题，“我听到你的声音，我想说话，并且在这个过程中麦克风一直处于开启状态。是的，如果你不处理回声，你的声音会被捕获再广播给你。”

在腾讯大厦的腾讯音视频实验室，刘晓宇给雷锋网做了一个小科普。2005年加入腾讯，负责QQ应用层的架构设计。“除了底层的公共组件，好友面板和消息窗口，包括空间、音乐、邮箱等插件功能，都可以理解为你能看到的QQ界面展示。出来的一切都是由我们。”

2011年，腾讯正式成立音视频中心，刘晓宇被任命为负责人。虽然QQ在1999年就有了音视频通话功能，但长期以来，腾讯依赖腾讯研究院和第三方技术提供商，没有独立的团队负责音视频通讯。

成立音视频中心，是因为腾讯觉得音视频未来会是一个爆发点，还有一个重要的原因。当时，从 GIPS（后来被谷歌收购）购买的技术方案是一个“黑匣子”。原因找不到，GIPS没有给予足够的重视，更加坚定了腾讯自研技术的决心。

刘晓宇介绍，在音视频通信中，网络问题一直是技术难点。网络带宽的检测，平衡视频质量和传输速度的带宽检测，丢包和抖动的处理，都需要深厚的技术积累。此外，随着移动互联网的发展，设备的碎片化问题越来越严重，适配不同的设备成为了一个巨大的问题。“我们经常要适应系统问题，有时会出现非常戏剧性的事情。” 有一个版本的QQ。腾讯专门针对不适配的小米手机进行了优化。不过，在版本发布之前，小米就发现了问题，并率先进行了优化。相互适应，结果又是一个问题。

（为了测试QQ在不同网络的音视频通话质量，腾讯音视频实验室拉取了10余条与用户真实情况相同的宽带，覆盖各运营商、教育网等）

音视频中心的发展壮大，推动了QQ音视频通话功能的不断创新。现在，QQ 用户每天的音视频通话时长高达 12 亿分钟。2015年11月，腾讯正式开放自研SPEAR音视频引擎，将包括基于云的流控策略控制、通道智能/多通道备份机制、分布式混音和云混音、跨平台通信协议设计，提供跨平台客户端引擎SDK、预连接设计、双/多通话平滑切换、客观通话质量评估系统等功能，带给更多开发者。

2016年，腾讯音视频实验室正式成立。成立之初是一个音像中心，只有7个人，现在有80多人。除了继续为QQ的音视频通话保驾护航之外，打通能力、在企业市场上有所作为也成为音视频实验室的新任务。

从音视频通话到直播：技术和需求必须随人性而变

2015年，随着4G和智能手机的普及，手机直播开始成为新的热点。其实，从技术上讲，直播并不是什么新鲜事物。早在2008年左右，刘建芳就开始尝试使用Flash技术进行网络直播。

从网络直播到手机直播，用户的需求没有改变，但使用的网络环境、设备、直播环境都在发生变化。比如移动直播需要解决Wi-Fi和移动网络的切换问题；而在不同的空间，确保音质、流畅的视频和光线平衡对技术提出了新的挑战。刘晓宇以雷锋网为例。在音视频通信的早期，腾讯从GIPS购买的音视频通话解决方案经常遇到投诉。重要原因之一是中国复杂的网络环境，如南北连接问题和用户较差。网络连接等

技术qq网_三维网技术论坛官网_qq技术论坛

（无回声实验室，关门时分贝数只有17，可以保证各个测试环境的一致性）

在处理移动直播时也存在类似的问题，这需要移动技术提供商针对不同的环境进行优化，包括针对弱网的专项优化、带宽抢夺能力、手机性能优化、模型适配、后台转码能力等。等，将直接影响直播间的稳定性和清晰度，连麦的实时性和沟通的顺畅。

此外，据刘晓宇介绍，由于用户观看直播的细微习惯，技术策略也应相应调整。比如在以往的视频通话中，用户的主要要求是低延迟，所以当网络不好时，系统会自动降低视频清晰度。但在直播中，却恰恰相反。“最好有一点延迟，稍微大一点的延迟，不要降低分辨率。” 滑动到下一个直播，需要系统提前缓存画面，让用户快速切换直播。

现在，腾讯拥有一套完整的直播技术解决方案，只需要几行代码就可以让企业接入腾讯的直播模块，拥有腾讯的直播技术支持。

本款音视频直播AVL（Audio Video Live）解决方案依托腾讯SPEAR音视频通信引擎，通过腾讯直播SDK，打造跨平台一对多、多对多超- 清晰酷炫的直播场景。除了提供基本的高清、秒开、高品质声音、转码、黄色识别能力外，还具备麦克风连接、实时录音、音频直播、美颜、水印、混音等特殊能力和即时消息。同时，它还拥有绕过直播、屏幕共享、人脸识别、滤镜、挂件等“不常见”的能力。所有功能多达 17 项。是目前功能最全面的主流直播SDK。

（为了测试真实通话的质量，过程中的所有数据都会被实时记录）

AVL在音视频直播中的一个重要应用就是直播中的连麦。现在斗鱼、虎牙、快手都在使用这个服务。斗鱼直播产品策划经理王楚峰也接受了雷锋网的采访。据他介绍，成立于2014年的斗鱼，现在每天拥有4万多个直播间，日活跃用户超过2000万。

2015年，斗鱼开始使用腾讯提供的直播链接功能。除了低延迟，腾讯还提供了虚拟换装、主播变声等特殊功能。此外，在音乐场景上，腾讯还对麦克风收音进行了深度优化，音质提升。.

垂直场景、语音识别、VR、直播新技术、新玩法

今年年初春节期间，在QQ视频通话中制作了一个视频表情彩蛋。当你说“Momada”时，屏幕上会出现一个红唇表情，如果你说“新年快乐”和“恭喜发财”技术qq网，就会有相应的惊喜表情。.

这只是语音识别在视频通话中的初步应用。在直播平台的竞争中，出现了“大鱼吃小鱼”的局面。在刘晓宇看来，技术将成为直播平台差异化的突破口。

今年，NOW Live已经开始测试绿屏直播。用户在直播过程中，当环境背景指定为绿色时，可以替换任意手机相册中的照片或视频。这项技术应用于电影制作，可以让直播有更多的创新玩法。有分析认为，可以应用于二次元主题直播。接下来，腾讯会将这个能力集成到直播SDK中，开放给更多的直播平台。

（从现在开始的绿屏直播）

现在直播、节目和游戏直播占了绝大多数，但与此同时，越来越多的垂直场景开始出现，比如金融、教育直播等。屏幕，现在，腾讯的直播技术已经能够解决三方同步、屏幕解码和CPU控制的问题。

此外，VR直播一直受到高度重视。刘晓宇告诉雷锋网，VR直播的主要技术障碍是，要保证多人同时观看的沉浸式体验，直播源必须传输全360度数据，而这个数据量是它非常巨大；另外，在采集全景视频时，对于画面叠加部分的拼接分割，以及镜头的校正，还有很长的路要走。

但是，科技行业永远是进步最快的领域。根据工信部和三大运营商的规划，2020年中国5G将正式商用。刘晓宇说，“5G相比4G，将是质的变化，我们将时刻关注关于这里的技术发展。”

腾讯腾讯直播软件

上一篇：微粒贷强开、“花呗”强开，为什么这么说呢？下一篇：Qq代码百科(40多个丰富的QQ特效代码，非常实用！)

腾讯音视频实验室负责人刘晓宇:再到支持每天12亿分钟通话

合作伙伴

商务合作

关于我们