近日,网易云信推出全球首个音乐教学解决方案,该方案依托网易云信18年的音视频技术和经验,可以全方位支持在线音乐教学场景。如今,实时音视频的应用市场随着基础技术的不断成熟,基础设施(如网络)的不断升级,以及用户需求的不断丰富而持续扩张。作为一个跨越物理距离实现人与人沟通交流的最重要的网络解决方案,人们对于实时音视频的需求和期望也越来越高。今天就来讨论下传统的VOIP在应用在在线音乐场景下面临的痛点,以及网易云信是如何设计一个端到端的在线音乐教学解决方案的。
首先我们先来介绍下一般的VOIP框架。VOIP即Voice over Internet Protocol,用中文简单描述就是将模拟信号(Voice)数字化,再进行前处理,编码,以数据封包(Data Packet)的形式在IP网络(IP Network)上做实时传递。VOIP区别于传统电话的最大变化就是不再独占信道,采用数据包发送至IP网络。它的优点是成本低、信道利用率高,缺点也很明显,就是网络状况的好坏直接影响通话的质量。VOIP的通话的首要目标是对抗网络状况实现语音的流畅、可理解、实时性,在很多子模块设计也都是以这个为目标的。在VOIP框架下(如图一所示),声音从一端到达另一端一般是要经过:采集,前处理,编码,网络传输,解码,播放几个模块的。

图片1-VOIP框架
为了达到流畅、可理解、实时性这样的目标,一般VOIP的每个环节这么做的:
- 采集/播放模块:由于一般的人声都是中低频为主,高频的谐波不多。大部分采集模块都选用性价比最高的16KHz采样率,早期的采集模块的采样率则是更低的窄带8KHz。16KHz采样率不仅能保存绝大部分的人声,也降低了后面模块如前处理和编码器的计算量,同时还大大减少了编码的输出码率(相对于48Khz采样率)。
- 前处理:一般的音频前处理主要有:回声消除,噪声抑制,自动增益控制等。任何的前处理都是希望保留或放大我们想要的声音,消除或抑制不想要的声音。所以处理一定是对本体声音造成影响的。在一般的VOIP框架下,前处理算法不仅可以扔掉高频信息来保证计算量,同时在算法的偏向性上也更偏向于去除掉不想要保留的声音如噪音,回声等。最大限度保证可理解即可。
- 编解码器:一般的VOIP系统除了会使用国际电信联盟的711、G.722、G.723等编码器(如:IP电话等),更多的即时通讯软件则会使用针对网络传输设计的Opus 等编码器,Opus在人声场景下,会使用口腔发音模型建模silk语音编码器,可以实现高压缩比,大大提升低带宽下表现。
- 网络传输:在对抗网络传输的不稳定,包括:随机丢包,拥塞,抖动等,常见的对抗技术和策略有:FEC(Forward Error Correction)前向纠错技术,PLC(Packet loss concealment)丢包隐藏技术,ARQ(Automatic Repeat Request)自动重传机制,JitterBuffer 抖动缓存区策略,带宽与冗余包分配策略等等。一般VOIP在设计这些策略和方案的时候会最大限度的保留流畅性和实时性的同时,利用尽量少的带宽来恢复更多的数据,满足可理解性,同时也能兼顾低带宽纯音频场景以及正常带宽下的音视频混合场景。
这些环节的设计,可以让人声场景下节约计算量的同时又比较高效的被压缩最大限度的利益网络带宽,来达到最高的性价比的语音通话。但是切换到音乐场景下,由于声音的内容的丰富程度大大增加,加上人对于音乐内容的要求更高,普通的VOIP框架的设计就显得有些不够用了,痛点如下:

图片2-音乐内容痛点
- 采集/播放模块:由于音乐内容的高频谐波非常丰富,16Khz的采集相对于绝大多数1KHz的音乐源来说,造成了大量的高频损失。经过对比测试,人耳可以在几秒内明显感知。
- 前处理:一些前处理算法,考虑到计算量会直接扔掉高频信息,这个效果会和16Khz采样的最后效果差不多,但是信息少了,大小却没有变,最后造成编码器计算量的增加和编码码率的提高。除此之外,前处理在语音内容的处理目标是可理解,在对本体语音的损伤较大,在语音内容下不易感知,但是在音乐内容下就非常容易感知了,极端情况下会带来非常不好的体验。
- 编解码器:普通的语音编码器一般是口腔发声模型建模的,在编码由乐器弹奏出来的曲子的时候由于模型不匹配将造成很多声音细节的丢失。所以音乐通常会使用基于人耳听觉模型建模的音乐编码器如Opus里面的celt编码器。相比于语音编码器,音乐编码器在高码率输出的时候还原度要好很多,但是压缩比要明显低一些,带来的直接影响是低码率下的音乐编码失真非常严重。
- 网络传输:传统的VOIP基于实时性、可理解以及顺畅的目标下,会给音频预留较低的带宽,冗余包的信息较少,jitterbuffer等策略的设计也是满足基本可理解声音的要求下尽量的降低时延。在音乐的内容下,整体的音质在对抗网络的状况中变化较大,用户体验不好。
网易云信,在设计在线音乐内容解决方案的时候,首先去了解了类似VIP陪练等在线音乐教学类的痛点,再加上技术框架下的重新思考,旨在给用户提供端到端的音乐内容解决方案。

图片3-音乐内容VS传统方案
- 采集/播放模块:采用48KHz全频带方案采集方案,在采集和播放处最大限度的减少音质的损失。针对Android等移动端系统,会在前处理可以处理的范围内,尽量选择适合音乐内容采集播放的模式,减少由于系统硬件前后处理带来的音质的损失。
- 前处理:支持48KHz的全频带处理能力,同时针对音乐内容做部分偏向性优化,希望能尽量减少音质的损失。
- 编解码器:设置更加适合音乐编码器的码率范围,在注重编码效率的同时兼顾音乐内容的音质,实现最大限度的高保真。
- 网络传输:重新定义了音频,视频,冗余音频,冗余视频等部分的优先级,定制化的调整了音频的整体带宽分配策略,以及冗余音频的大小。在实时性和质量的平衡中针对音乐场景做了定制化调优,最大限度的减少音质的变化带来的用户体验不佳。
除了在音质上对端到端音乐内容体验有了全新定义之外,我们还创新性地打造极速相应机制,让用户在无感知的情况下快速解决问题。事实上,面对成百上千的设备差异性,声音的效果在部分设备上表现会非常不理想。传统方案流程中用户发现问题、反馈问题再到手机适配解决问题的流程,版本迭代周期长、升级成本高、用户体验修复慢,这些都是非常大的弊端。云信下发极速响应机制,使分析问题、解决问题、实时同步部署成为可能,最快可以使用户从反馈问题到下一通电话就在用户无感知的情况下解决,大大提升了声音类问题从发现到解决到用户使用的闭环时间。
网易云信推出的全球首个音乐教学解决方案,是云信在音乐场景下完成的端到端系统性、框架性优化迈出的重要一步,方案考虑并设计了各个环节的策略和定制优化,我们也会在接下来的版本里针对在线音乐教学场景进行持续优化!