音视频+如何在不同场景下实现最优用户体验

Z时代
2024-01-10
分类：综合

文 / 张靖雨

大家好我叫张靖雨，是即构科技的解决方案架构师。

即构目前已经为200多个国家和地区提供音视频服务，在全球范围内有500多个BGP节点覆盖，包括边缘节点、中心节点、计算节点、流媒体节点。为众多行业头部平台提供技术和服务，海外有UpLive、LiveMe、mico，泛娱乐有花椒、映客、喜马拉雅，在线教育有好未来、一起作业网、掌门一对一等等。

随着音视频的应用越来越广泛，即构的服务客户量也越来越大。目前即构平均每天在线音视频互动时长已经达到了6亿多分钟，在这么大的使用量下，即构是如何保障用户的最优体验？

两个手段，保障用户的优质体验

用户体验一定是来自用户，我们先来听一听用户的声音：“我看白板跟快进一样、我看视频太卡了、我一打开就黑屏了”。

作为技术人员，我们其实很难从这些反馈中找到真正的问题，但通过不断积累，我们总结出用户问题一般会分为两个大类：一类在客户端，有崩溃、卡顿。另一类在服务端，有延时、丢包、可用性。

确定了问题的大致方向，下面我们来看解决的方法。

实时音视频最重要的功能就是推流和拉流，以前推拉流大部分用RTMP走CDN，但CDN无法统计推流数据。即构对每一条流都做了实时监控，能真实的看到用户推/拉流是怎么样的？流质量好不好？

实时质量回调

从客户端进行推拉流的操作开始，我们会每3秒进行一次数据统计，包括推流的帧率、采样率、码率，质量，推流端设备IP和型号等等，以回调的形式上报给后台。

加上即构有整个云端的控制台，可以监测每一条流从一个用户出发，到另一个用户截止，它所经历的全过程，形成全栈监控。

QOS策略

即构的服务是基于全球公有云资源的融合云，可以快速平滑扩容，快速切换公有云的云商，快速调度不同云的不同节点。我们通过以下两点来保证我们的QOS：

即构目前整个后端500多个BGP的节点之间，会以一定的频率进行互通测试，互通测试的结果构成了即构调度系统监控平台的数据基础。

即构会实时拨测每两个节点中间的延时质量，采用多中心架构，让我们的边缘节点不只覆盖推流或者拉流一方，而是进行多点调度。

即构现在每天都有超6亿分钟的音视频使用时长，覆盖全球200多个国家和地区，这些大量的线上数据就构成了即构的云端网络大数据平台。

我们会通过实时的线上数据来判断每一个地区，每一个用户，他到底走哪一条线路，哪一个边缘节点，哪一个中心节点质量最好。

以上介绍了即构如何从整体上保障每一个用户每一条流，都以就近的、高质量的完成每一次调度。落地到具体场景中，不同场景下用户体验的侧重点也有所差异。

“音视频+AI”带来的体验优化

实时音视频+AI的应用场景非常多：

在线教育

今年大热的AI智能课堂，可以在最大程度降低老师资源成本的情况下，让学生获得接近真人老师上课的智能体验。今年暑假，即构AI课堂解决方案让在线教育平台的课时量增加了近10倍；

此外，教育平台方还会构建课堂质量监控平台，依靠AI去识别老师上课的时候有没有涉及到相关的敏感词，老师的动作是否合乎礼仪，学生是否有打哈欠，有没有在玩手机？

基建行业

在基建行业，音视频+AI让安全检查更智能。即构有一个海外基站的施工方客户，客户需要每一个施工人员上班之前先打开APP，通过视频的方式去识别他的工装和安全设备是否合规和完整。如果没有的话，就紧急呼叫客服进行视频检测和提醒。

泛娱乐行业

在泛娱乐行业，针对涉黄、涉政、涉赌、涉毒等违禁内容的检测已经成为平台规避运营风险不可缺少的手段。

音视频+AI带来了更多新场景。在这些场景里，如何打通两者，为用户带来最好的效果呢？

实时语音+AI鉴定

之前，客户要在实时语音中加入语音识别，需要先找到即构，再找科大讯飞等语音识别的厂商，分别集成两家的方案，工作量非常大。

基于此，即构做了和AI语音识别的打通方案，我们会先集成AI识别厂商的方案，提供一个实时的用于鉴别的即构拉流器。

这个拉流器部署在AI厂商的后台中，并按照业务方制定的鉴别策略去进行实时语音拉流，将拉下来的流翻译成文本文字进行识别，识别数据实时回调给即构的后台，即构再把数据关联好回调给客户后台。

客户通过这个方案，只需要集成一个即构的SDK，就可以从后台看到，哪个房间、哪一个主播、在什么时间段，可能有敏感内容，然后及时的采取措施。

实时视频+AI鉴定

实时视频+AI鉴定有两种方式：第一种是鉴别截图。第二种是鉴别实时视频码流的关键帧。

第一种方式比较常见，即构在客户端进行截图，然后上传给AI方的后台识别。

第二种方式，即构同样会提供一个视频的拉流器给AI方，然后在AI方的后台实时拉流，即构会负责解码还原成原始的数据，然后AI方再对视频码流里面的关键帧内容进行识别，同样它的结果会和即构后台的相关数据进行打通，并最终回调给即构的客户后台。

即构的音视频+AI方案可以对接任意的AI厂商，不仅保障了用户体验，还能根据客户的真实业务场景，提供性价比最高的方案。

TT语音是国内语音领域的头部玩家，用户量非常庞大，此前TT语音进行音视频鉴别，每一条流转换成文本进行识别，会产生不菲的第三方的鉴别费用。而通过即构“音视频+AI识别”解决方案，能够把TT语音每个房间9个麦位，9个人的语音流合成一条给第三方鉴别，将TT语音的内容鉴定费压缩到原来的近1/8。

“音视频+互动白板”带来的体验优化

今年是在线教育比较火的一年，而在线教育客户对音视频质量非常关注。现场如果有做教育的朋友应该会知道，目前市场上除了即构，几乎没有任何一家供应商能够把白板的传输和音视频的传输同步起来。

这里的难点在于，实时音视频走流媒体协议，有传输延时，但白板走信令通道，信令通道比流媒体通道的延时低。在跨区域跨国的课堂场景中，学生在外上课，经历基站切换，网络断开又恢复了，然后白板内容和老师说的话就完全对不上。

针对弱网/断网网络恢复场景，即构将两个通道打通和对齐，实现音视频和白板内容的同步。

通道的对齐，大家可能都会想到用时间戳：在实时音视频里面打上时间戳，白板信令里也打上时间戳，每次播放的时候把两个时间戳对齐了才播放。

这是一种方法，但有一个问题：时间戳的粒度选多长？

如果粒度选的太大，在短暂的中断之后，要等播放到时间戳才能对齐，延时大。如果粒度选的太小，那么实时传输的数据量会增加，甚至时间戳也会丢包。

在这种情况下，即构做了多重策略。

第一，以大粒度去打时间戳。但这个时间戳是以白板或者是文件共享中的动作为节点，比如画了一个新的图形，写了一个新的字，从落笔到抬笔算一个动作，我们会以这种时间节点进度来打时间戳。

第二，白板节点信息与流媒体混编。实时音视频流媒体传输，允许将非媒体信息通过一个虚拟的帧插入媒体流信息中。在实时音视频的流传输过程中，即构通过媒体次要信息的接口，将白板的关键节点混编到流信息里。

网络正常时，通过时间戳对齐进行播放；网络异常时，通过解析视频流里的媒体信息和白板的信令对齐。

“音视频+白板”方案，还有一个大家比较关心的点是录制和回放。此前，白板和音视频的回放都是从回放开始的时间做好对齐，然后再播放渲染。

即构可以将白板和音视频对齐后再回放，那么不管出现暂停，快进或是网络突然中断，白板内容和音视频内容会始终保持同步的回放播放。

“音视频+5G”下的体验优化

即将到来的2020年将是5G大规模应用的一年， 5G大带宽、低延时、海量互联的三大特性，将为我们带来更多的新应用场景和新的诉求。

比如大带宽下的4K高清课堂；低延时的自动驾驶、远程手术，多人线上K歌合唱、线上在线乐队等等场景。

即构将根据5G网络的特性，从端，网，云及底层引擎优化多方面，对应调整云端架构，实现新应用场景的快速落地。

端

5G下的新场景会带来更多样化的客户端，未来可能会出现云手机、云端桌面、云端电脑。

此外还有服务器，未来可能把嵌入式Linux的服务器压缩在盒子里，用嵌入式有限的资源设备去传输8K/4K高清视频。一些特殊设备，带推流的麦克风，带直接推拉流的摄像头，以及在医疗行业，还要打通医疗设备、手术操作设备的系统。

即构对每一款新设备都会进行严格的测试，目前我们累计测试的客户端类型已经超过了15000种。

网

在网这部分，即构坚持：Anytime、Anywhere、Anyresource。即构现在已经覆盖了500多BGP的节点，但5G下将面临的一个问题是：以前我们所面对的基站都是宏基站，功率大，覆盖范围广，而5G下是无数的微基站、皮基站，我们的架构要怎么优化？

首先，网端尽量下沉到边缘节点

用户与边缘节点的距离越长，会造成更多的延时。而下沉边缘节点就意味着节点数量的增加，节点选型的难度加大，并且下沉边缘节点后，还要做不一样的传输、调度。

其次，优化每个边缘节点的算力

4G网络下一条1080P30帧的高清视频流，码率只有5M，一台4核8G的服务器能够同时推600条流；但5G下一条4K30帧的视频流，码率会达到30M，在5G单条流带宽资源增长6倍的情况下，我们需要让每一台四核8G的服务器还能同时处理200~300条5G的流，才能实现成本与性能的平衡。

云

在云端，针对每一个不同的业务形态，我们通过网络切片和CU转控分离来保证每一个场景的业务形态，都能获得最优资源，实现最好的效果。

5G在网络上带来最大的一个变化，是进行网络切片。以4K直播为例，之前的方案中，观众观看直播大部分都会走CDN，而CDN的延时在3~10秒，主播和观众打赏互动之间会有明显的延时。

现在越来越多的直播客户，希望即构提供的方案能支持4K直播，但不想走实时网络，因为成本太高，也不想走CDN，因为CDN太慢。

因此，即构推出5G下的中延时方案，它快于CDN传输，但又不是实时的效果，它的延时在1秒左右。中延时方案以3-10秒延时的成本，实现1秒延时的效果，在不增加成本的基础上提供更好的用户体验。

除了网络切片，云端另一个优化是CU分离，控制面和用户面完全分离，将边缘节点下沉，最大化的靠近用户面。

优化底层引擎

除了端、网、云的改造，在5G网络下，我们还要对整个编码逻辑进行优化。

大家想象一下，当大量流数据已经能够在50毫秒内进行传输，但因为编解码关键帧的间隔，也就是GOP中的I帧间隔还是2秒，会导致什么情况？

会导致虽然流数据到了，但是2秒的关键帧间隔让播放器无法立刻显示下一帧画面，用户体验到的还是2秒的延时。

4G网络下，2秒的关键帧间隔是最实时最快效果最好的值，但在5G下，我们可以把关键帧间隔调到1.8秒，并且预缓存一个GOP，这个GOP只存储上一帧的关键帧数据。

当流数据到达，我们就能先从缓存的GOP中调取上一个关键帧数据，成为首帧。用户的体验立刻升级了：一打开就能马上看到画面，实现5G下的首帧秒开。

在5G即将到来之际，即构将继续打磨产品和技术，为用户提供5G新场景下的更优体验。

以上是音视频+如何在不同场景下实现最优用户体验的全部内容，来源链接： utcz.com/z/513366.html