1999年,正式加入新版聊天软件OICQ,正式加入语音通话功能,随后视频通话。18年后的今天,QQ月活跃用户已突破8亿。更惊人的数字是,在高峰期,QQ 用户每天的音视频通话时长高达 12 亿分钟。
在QQ的发展过程中,其背后的音视频通讯技术也经历了外部采购,到成立QQ音视频技术中心,自主研发引擎,再到腾讯音视频的发展壮大,视频实验室,开放了自主研发的SPEAR音视频引擎。过程。现在,随着全民直播时代的到来,腾讯研发并开放了一体化直播解决方案,并将腾讯直播SDK应用于斗鱼、虎牙、快手等顶级直播平台。这背后,是技术和经验的不断进步和积累,以及腾讯对中国复杂网络状况的智能应对。
日前,腾讯音视频实验室负责人刘晓宇接受了雷锋网的采访技术qq网,谈到了这些问题,并向我们介绍了在精细化运营和5G技术到来之际,还有哪些新的直播方式。
(腾讯音视频实验室负责人刘晓宇)
腾讯音视频实验室:从零开始支持每天12亿分钟的通话
在偏远的斯坦福校园,一位机器学习教授上课的场景被高清摄像头捕捉,经过编码器压缩,分段发送,通过互联网传输到你的电脑,然后被玩家实时解压。加工,可以学习前沿课程。
流媒体技术为互联网带来无限生机,当场景变为音视频通信时,其背后的技术更是翻倍不止。除了双向反馈外,实时通信对延迟的要求非常高;此外,回声处理也成为了一个新问题,“我听到你的声音,我想说话,并且在这个过程中麦克风一直处于开启状态。是的,如果你不处理回声,你的声音会被捕获再广播给你。”
在腾讯大厦的腾讯音视频实验室,刘晓宇给雷锋网做了一个小科普。2005年加入腾讯,负责QQ应用层的架构设计。“除了底层的公共组件,好友面板和消息窗口,包括空间、音乐、邮箱等插件功能,都可以理解为你能看到的QQ界面展示。出来的一切都是由我们。”
2011年,腾讯正式成立音视频中心,刘晓宇被任命为负责人。虽然QQ在1999年就有了音视频通话功能,但长期以来,腾讯依赖腾讯研究院和第三方技术提供商,没有独立的团队负责音视频通讯。
成立音视频中心,是因为腾讯觉得音视频未来会是一个爆发点,还有一个重要的原因。当时,从 GIPS(后来被谷歌收购)购买的技术方案是一个“黑匣子”。原因找不到,GIPS没有给予足够的重视,更加坚定了腾讯自研技术的决心。
刘晓宇介绍,在音视频通信中,网络问题一直是技术难点。网络带宽的检测,平衡视频质量和传输速度的带宽检测,丢包和抖动的处理,都需要深厚的技术积累。此外,随着移动互联网的发展,设备的碎片化问题越来越严重,适配不同的设备成为了一个巨大的问题。“我们经常要适应系统问题,有时会出现非常戏剧性的事情。” 有一个版本的QQ。腾讯专门针对不适配的小米手机进行了优化。不过,在版本发布之前,小米就发现了问题,并率先进行了优化。相互适应,结果又是一个问题。
(为了测试QQ在不同网络的音视频通话质量,腾讯音视频实验室拉取了10余条与用户真实情况相同的宽带,覆盖各运营商、教育网等)
音视频中心的发展壮大,推动了QQ音视频通话功能的不断创新。现在,QQ 用户每天的音视频通话时长高达 12 亿分钟。2015年11月,腾讯正式开放自研SPEAR音视频引擎,将包括基于云的流控策略控制、通道智能/多通道备份机制、分布式混音和云混音、跨平台通信协议设计,提供跨平台客户端引擎SDK、预连接设计、双/多通话平滑切换、客观通话质量评估系统等功能,带给更多开发者。
2016年,腾讯音视频实验室正式成立。成立之初是一个音像中心,只有7个人,现在有80多人。除了继续为QQ的音视频通话保驾护航之外,打通能力、在企业市场上有所作为也成为音视频实验室的新任务。
从音视频通话到直播:技术和需求必须随人性而变
2015年,随着4G和智能手机的普及,手机直播开始成为新的热点。其实,从技术上讲,直播并不是什么新鲜事物。早在2008年左右,刘建芳就开始尝试使用Flash技术进行网络直播。
从网络直播到手机直播,用户的需求没有改变,但使用的网络环境、设备、直播环境都在发生变化。比如移动直播需要解决Wi-Fi和移动网络的切换问题;而在不同的空间,确保音质、流畅的视频和光线平衡对技术提出了新的挑战。刘晓宇以雷锋网为例。在音视频通信的早期,腾讯从GIPS购买的音视频通话解决方案经常遇到投诉。重要原因之一是中国复杂的网络环境,如南北连接问题和用户较差。网络连接等
(无回声实验室,关门时分贝数只有17,可以保证各个测试环境的一致性)
在处理移动直播时也存在类似的问题,这需要移动技术提供商针对不同的环境进行优化,包括针对弱网的专项优化、带宽抢夺能力、手机性能优化、模型适配、后台转码能力等。等,将直接影响直播间的稳定性和清晰度,连麦的实时性和沟通的顺畅。
此外,据刘晓宇介绍,由于用户观看直播的细微习惯,技术策略也应相应调整。比如在以往的视频通话中,用户的主要要求是低延迟,所以当网络不好时,系统会自动降低视频清晰度。但在直播中,却恰恰相反。“最好有一点延迟,稍微大一点的延迟,不要降低分辨率。” 滑动到下一个直播,需要系统提前缓存画面,让用户快速切换直播。
现在,腾讯拥有一套完整的直播技术解决方案,只需要几行代码就可以让企业接入腾讯的直播模块,拥有腾讯的直播技术支持。
本款音视频直播AVL(Audio Video Live)解决方案依托腾讯SPEAR音视频通信引擎,通过腾讯直播SDK,打造跨平台一对多、多对多超- 清晰酷炫的直播场景。除了提供基本的高清、秒开、高品质声音、转码、黄色识别能力外,还具备麦克风连接、实时录音、音频直播、美颜、水印、混音等特殊能力和即时消息。同时,它还拥有绕过直播、屏幕共享、人脸识别、滤镜、挂件等“不常见”的能力。所有功能多达 17 项。是目前功能最全面的主流直播SDK。
(为了测试真实通话的质量,过程中的所有数据都会被实时记录)
AVL在音视频直播中的一个重要应用就是直播中的连麦。现在斗鱼、虎牙、快手都在使用这个服务。斗鱼直播产品策划经理王楚峰也接受了雷锋网的采访。据他介绍,成立于2014年的斗鱼,现在每天拥有4万多个直播间,日活跃用户超过2000万。
2015年,斗鱼开始使用腾讯提供的直播链接功能。除了低延迟,腾讯还提供了虚拟换装、主播变声等特殊功能。此外,在音乐场景上,腾讯还对麦克风收音进行了深度优化,音质提升。.
垂直场景、语音识别、VR、直播新技术、新玩法
今年年初春节期间,在QQ视频通话中制作了一个视频表情彩蛋。当你说“Momada”时,屏幕上会出现一个红唇表情,如果你说“新年快乐”和“恭喜发财”技术qq网,就会有相应的惊喜表情。.
这只是语音识别在视频通话中的初步应用。在直播平台的竞争中,出现了“大鱼吃小鱼”的局面。在刘晓宇看来,技术将成为直播平台差异化的突破口。
今年,NOW Live已经开始测试绿屏直播。用户在直播过程中,当环境背景指定为绿色时,可以替换任意手机相册中的照片或视频。这项技术应用于电影制作,可以让直播有更多的创新玩法。有分析认为,可以应用于二次元主题直播。接下来,腾讯会将这个能力集成到直播SDK中,开放给更多的直播平台。
(从现在开始的绿屏直播)
现在直播、节目和游戏直播占了绝大多数,但与此同时,越来越多的垂直场景开始出现,比如金融、教育直播等。屏幕,现在,腾讯的直播技术已经能够解决三方同步、屏幕解码和CPU控制的问题。
此外,VR直播一直受到高度重视。刘晓宇告诉雷锋网,VR直播的主要技术障碍是,要保证多人同时观看的沉浸式体验,直播源必须传输全360度数据,而这个数据量是它非常巨大;另外,在采集全景视频时,对于画面叠加部分的拼接分割,以及镜头的校正,还有很长的路要走。
但是,科技行业永远是进步最快的领域。根据工信部和三大运营商的规划,2020年中国5G将正式商用。刘晓宇说,“5G相比4G,将是质的变化,我们将时刻关注关于这里的技术发展。”