音频的数字化涉及什么技术(数字音频技术的界面规范及应用)
更新日期:2023-05-23
来源:系统助手
一、什么是数字音频技术
现在,音频技术已经逐步完成了数字化转型的基本任务,传统的音响、会议系统、视频会议系统已经和计算机系统深度融合,并被包容到了一个更加宽泛的技术领域中,这就是数字音频技术。
多种音频技术的融合、数字音视频压缩的编解码方法、数字化的音频波形合成方法、数字化的音频矩阵处理、数字处理和数字化的传输方法,多种音频技术和计算机技术的深度融合,构成了多媒体系统中的数字音频的基本框架。
多媒体技术的核心是数字化音视频技术。
融媒体技术的基础是多媒体技术。
信创产业的重要技术支撑点也是多媒体技术。
二、Interface
我们经常碰到一个非常熟悉的英文单词“ interface”,通常人们习惯的把它译为“接口”,而它准确的含义应该为“界面”,即不同技术系统的界面结合规范。
在音频系统工程中,处理好各个技术模块的界面结合部分,这是一个技术难点,现在我们不缺少音频专业的工程师,不缺少视频专业的工程师,不缺少计算机专业的工程师,而同时具备这些专业能力的工程师却是鳳毛麟角。因此,在国际上最抢手的技术人员不是一般的数字技术工程师和音视频技术工程师,而是能够处理好界面工作的界面工程师。
只有处理好了界面问题,才能让我们的投资获得最大的性价比。
多媒体设备或者系统,都需要进行数字化的信息传输,都必须遵守相关的传输协议和界面规范。
三、数字音频的界面规范
数字音频的界面规范,各种主要的数字界面的特点和优势,以及传输协议的缺陷和延时;
围绕这个问题,我们展开讨论相关的传输协议、界面规范和使用方法。
3.1、数字音频的传输协议、界面规范和使用方法
3.1.1、IEC-958 数字音频协议
IEC-958 是 IEC 61937 的简化版本,IEC-958 协议规定,用于传输和交换的数字音频码流格式位长可以从 16bit 扩展到 24bit,动态范围从 96dB(16bit)可以扩展到 144dB(24bit),采样频率为 32kHz、44.1kHz、48kHz、96kHz,专业版本的子码包括一串 ASCII 码,用来记录来源和目的地。
16bit 动态的相应码流速率为 2Mbit/s、2.8Mbit/s、3.1Mbit/s,传输中为了分离出同步时钟信号,采用双相调制,传输速率为 4Mbit/s、5.6Mbit/s、6.2Mbit/s,同步时钟为 16MHz。
它的每个音频通道的信息用 32bit 组成的“字”结构来传输,这个“字”结构称作子帧(Sub-Frame),每个子帧代表一个音频通道,2 个或多个子帧构成一个完整的帧,192 个帧数据组成一个数据包。数据传输时是发送一个个数据包,并在接收端进行纠错校验。如果帧数据出错或丢失,在可忍耐的误码率下,会造成时钟信号抖动,误码率过高就会丢包,产生明显的“刺啦”声,丢包严重时会造成信号中断。
IEC- 958 的数据流结构
IEC- 958 的数据流结构
它的每个子帧都由引导符“B、M、W”开始,它的作用是同步各个子帧。每个子帧的长度是 32bit,前 4bit 是引导符,后 28bit 是子帧数据。
流媒体数字音频和 IP 数字音频不同的地方是流媒体技术是单向传输数字码流,在接收端进行校验和纠错,误码率太高就要丢失数据。
IP 数字音频流是把数字码流打包进行传输,在接收端进行包校验和纠错,校验失败就会要求发送端重新发送数据包;IP 数据是一包包的发送,包校验成功后才能发送下一个数据包,它需要双向沟通,要有握手信号,不可避免的要产生网络延时。
流媒体数字音频和 IP 数字音频的包装形式不同,传输方法不同,延时不同,但内部的音频数据流结构基本是一致的,都符合 IEC-958 音频数据流标准。
常见流媒体数字音频界面有 S/PDIF 和 AES/EBU 等。
常见的 IP 数字音频网络传输协议有 Cobranet、EtherSound 和 Dante 等。
3.1.2、S/PDIF 界面规约
S/PDIF 是依据 IEC-598 协议制定的一种民用(消费类)文件格式的流媒体数字音频界面,广泛的应用在 CD、DVD、DAT、SACD、PC 机上面的 CD-ROM、声卡等消费类产品中。
S/PDIF 流媒体数字音频界面
S/PDIF 可分为输出接口(S/PDIF OUT)和输入接口(S/PDIF IN),通常采用光纤或同轴电缆传输,可以直接连接到具有 S/PDIF 界面的编解码器、音频矩阵等数字设备中。
由于 S/PDIF 是单端连接端口,因此它的最小通道数(子帧)通常为“2”。
3.1.3、AES/EBU 界面规约
AES/EBU(Audio Engineering Society and the European Broadcast Union )是音频工程学会和欧洲广播联盟依据 IEC598 协议提出的一种流媒体专业数字音频界面,它和 S/PDIF 界面的不同之处是延续使用了卡侬(XLR)接头,并且每个卡侬口和模拟技术相同,只传输一路带屏蔽层的双绞线平衡数字音频信号,标准阻抗是 110Ω。它和 S/PDIF 都按照 IEC-958 规约进行流媒体音频数据传输,由于每路仅传输一个音频通道数据,因此它有更小的数据延时。
AES/EBU 数字音频界面
AES/EBU 通过 XLR 利用数字音频双绞线进行平衡传输,具有很强的抗共模干扰能力和更远的传输距离。
因为 AES/EBU 是一种线性 PCM 编码的数据结构,因此可以经过扩展后方便的传输 AC-3、DTS、MPEG 等非 PCM 格式的数据流,现在所有的专业音频设备都使用 AES/EBU。
3.1.4、Cobranet 数字音频网络传输协议
CobraNet 是美国 PeakAudio 公司在 1996 年开发的一种在局域网内传输非压缩数字音频的技术。
CobraNet 是最早采用网络化音频技术的技术之一, 它利用局域网技术传输和实时分配多通路数字音频信号,可以使用五类线或光纤传输。它运行在 OSI 的第二层,仅仅使用数据链路层和物理层两个低层协议,不涉及数据链路层以上的高层协议,不支持跨局域网的数据传输。
Cobranet 需要把音频数据打包传输,每个数据帧(MAC 帧)包含 8 个音频通道,它支持的公共数据包不能超过 8 个,总的数据通道不能大于 64。在量化分辨率 20bit 时,每 8 个音频通道要占据 9Mbit 带宽,由于每个音频通道要分时传送,它的数据等待会产生 1.3-5mS 的不确定延时。
3.1.5、EtherSound 数字音频网络传输协议
EtherSound 是由法国 Digigram 公司在 2002 年开发的一种基于百兆局域网传输音频信号的技术,一般采用菊花链结构或以太网星型结构或者这两种结构的混合形式,通过以太网交换机互相连接,在数据链路层(OSI 二层)进行数据交互。
EtherSound 协议的采样率最高到 96KHz,因为采用中央控制器结构,多个设备可以单独交互,单一链路在理论上最多可传输达 512 个通道,它比 CobraNet 的延时低得多,最小延迟 125µs,因此在现场演出或录音中应用较多。
3.1.6、Dante 数字音频网络传输协议
CobraNet 和 EtherSound 都工作在数据链路层(OSI 二层),这种低层传输协议,无法穿过路由器,只能在局域网中传递;实际应用中能够传输的通道数量受限,不能适应大型项目和远距离广播的需求。
Cobranet 运行了十年后,Audinate 公司在 2006 年推出了 Dante,Dante 继承了 CobraNet 与 EtherSound 几乎所有的优点,并利用广域网技术大大提升了性能。
Dante 跨越了二层网络通信协议,采用 TCP/IP 三层通信协议,将 MAC 帧转换为统一的 IP 包,并将 MAC 帧的物理地址变换为统一的逻辑地址(IP 地址)这些不同物理网络 MAC 帧的差异对上层而言就不复存在了,利用这一转换,Dante 实现了不同类型物理网络的互联,单一链路支持 1024 个通道的双向传输,,是真正的数字音频 IP 网络协议。。
这种 TCP/IP 概念的数字音频网络,替代了点对点连接和矩阵开关,通过网络,可以同时发送和接受成千个高质量的音频通道,并且可以从现有的网络设备中进行控制、监听。所有连接到网络端口上的音频源都可以用软件控制路由分配,在网络的任意端口取用。Dante 的理论延迟时间是 34µs,可以满足精准的音频系统的技术要求。
Dante 广泛应用于专业音响行业、广播系统、电话会议系统、楼宇智能音频系统、大型运动会等领域。
现在,Dante 已趋于更加完善和成熟,众多的厂商和大中型项目已经几乎都采用了 Dante 协议,至 2022 年,几乎所有世界著名的音视频厂商都采用了 Dante 方案。
3.2、数字音频界面协议的小结
3.2.1、在单台数字音频设备上,S/PDIF 和 AES/EBU 两种结构的流媒体数字音频界面成为主流;
3.2.2、S/PDIF 是 AES/EBU 的简化版,应用在民用设备中,用同轴电缆或光纤传输,无法和大多数数字调音台直接经过数字接口对接,如果使用模拟接口,所有指标退回到模拟时代,信噪比、失真度、动态范围会大幅度的缩水;
3.2.3、AES/EBU 是专业流媒体数字音频接口,所有专业数字调音台和专业音频处理设备都能方便对接,应该优先考虑使用带有 AES/EBU 接口的音频设备。
3.2.4、数字音频系统的网络协议真正成为主流的只有三种,即 Cobranet、EtherSound、Dante。
Cobranet 的网络延时时间为 1.3-5mS,这个不确定的延时,在中小型多声道的应用环境中,由于哈斯效应的存在,会使各个声道无法精确定位,造成声像漂移。在大型应用场合下,由于是二层交换结构,无法穿越局域网的限制,所接入的音频设备不能超过 64 个。
使用 Cobranet 协议的代表产品有 Stuter、MeyerSound、QSC、Crown、dbx、sabine、R-H 等。
3.2.5、EtherSound 比 CobraNet 的延时低得多,最小延迟 125µs,应用在对声像定位要求严格的场合,但因为工作在数据链路层(OSI 二层),无法突破局域网的限制,所接入的音频设备不能超过 512 个。
使用 EtherSound 协议的代表产品有 Midas、NEXO、YAMAHA、ALLEN&HEATH、CAMCO 等。
3.2.6、Dante 采用 TCP/IP 三层通信协议,理论延时时间为 34µs,单一链路上可支持 1024 个通道的双向传输,能应用在所有大、中、小型场合,,是数字音频的 IP 网络协议。
Dante 广泛应用于专业音响行业、广播系统、电话会议系统、楼宇智能音频系统、大型运动会等领域。
至 2022 年,几乎所有的世界著名的音视频厂商都采用了 Dante 方案。
Dante 协议的最大技术优势在于它的三层交换,但采用 TCP/IP 三层通信协议后的弊端是跨局域网链接时增加了越墙侦听泄密的风险,因此党政机关、事业单位、银行系统等单位在系统规划时必须考虑到音频加密和防火墙系统的应用。
今天我们重点讨论了多媒体技术应用中的数字音频传输协议和界面规范,这也是我们音频技术行业稳定发展的技术基础。
在实践应用中,造成技术差异的根本问题不是价格,而是对新技术、新理念的跟进速度。
而对新技术的追求和创新,也恰恰是我们一贯的宗旨。
技术创新决定了我们这个行业的生命力。
是否能够把握好我们的命运,机遇也恰恰在我们自己手里。