kl800.com省心范文网

音频采样 解释


音频采样 解释 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的, 实现这 个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采 样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可 以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为 HZ(赫兹) 。 采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围(相当于音调) ,可 以用数字波形表示。 以波形表示的频率范围通常被称为带宽。 要正确理解音频采样可以分为 采样的位数和采样的频率。 1.采样的位数 采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高, 采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制 和回放的声音就越真实。 和回放的声音就越真实。我们首先要知道:电脑中的声音文件是用数字0和1来表示的。所 以在电脑上录音的本质就是把模拟声音信号转换成数字信号。 反之, 在播放时则是把数字信 号还原成模拟声音信号输出。 采集卡的位是指采集卡在采集和播放声音文件时所使用数字声 音信号的二进制位数。 采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程 度。8位代表2的8次方--256,16位则代表2的16次方--64K。比较一下,一段相同的音乐信 息,16位声卡能把它分为64K 个精度单位进行处理,而8位声卡只能处理256个精度单位, 造成了较大的信号损失,最终的采样效果自然是无法相提并论的。 如今市面上所有的主流产品都是16位的采集卡,而并非有些无知商家所鼓吹的64位乃 至128位,他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采 集卡系列采用的 EMU10K1芯片虽然号称可以达到32位,但是它只是建立在 Direct Sound 加速基础上的一种多音频流技术,其本质还是一块16位的声卡。应该说16位的采样精度对 于电脑多媒体音频而言已经绰绰有余了。 2.音频采样级别(音频采样频率) 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的, 实现这 个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采 样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可 以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为 HZ(赫兹) 。 采样频率越高所能描述的声波频率就越高。 采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就 越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz 22.05 KHz 只能达到 FM 广播的声音品质, 44.1KHz 则是理论上的 CD 音质界限, 三个等级, 48KHz 则更加精确一些。对于高于48KHz 的采样频率人耳已无法辨别出来了,所以在电脑 上没有多少使用价值。 3. 位速说明 位速是指在一个数据流中每秒钟能通过的信息量。 您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”,因此数值越大

表示数据越多:128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍,并 占用两倍的空间。 (不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有 些文件格式比其他文件能够更有效地利用数据,64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。 )需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解 码的处理量就越大,文件需要占用的空间也就越多。 为项目选择适当的位速取决于播放目标:如果您想把制作的 VCD 放在 DVD 播放器上 播放, 那么视频必须是 1150 Kbps, 音频必须是 224 Kbps。 典型的 206 MHz Pocket PC 支 持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。 心理声学音频压缩 心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音 频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。 例如, 如果我扯着嗓子 喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的声音。通过去 掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。

什么是语音、音频、和音效? 2008-10什么是语音、音频、和音效?请说出他们的共同点和不同之处2008-10-12

10:58

语音是人类发音器官发出的具有区别意义功能的声音, 答 语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物 语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。 质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。 语音的物理 基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率, 基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每 秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为” 秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为 时长“;音色指声音的特色和本质,也称作”音质 音质“。 时长 ;音色指声音的特色和本质,也称作 音质 。 音频这个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、 音频这个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、 声音 被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。 被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成 C 本来就是音频文件的一种类型。 D,这时候所有的声音没有改变,因为 CD 本来就是音频文件的一种类型。而音频只是储存 这时候所有的声音没有改变, 在计算机里的声音。 演讲和音乐, 在计算机里的声音。 演讲和音乐,如果有计算机加上相应的音频卡 -- 就是我们经常说的 声卡,我们可以把所有的声音录制下来,声音的声学特性, 声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘 文件的方式储存下来。反过来, 文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播 还原以前录下的声音。 放,还原以前录下的声音。 音效是指为增进一场面之真实感、气氛或戏剧讯息,而加于声带上的杂音或声音。 音效是指为增进一场面之真实感、气氛或戏剧讯息,而加于声带上的杂音或声音。简 单地说,音效就是指由声音所制造的效果。所谓的声音则包括了乐音、及效果音。 单地说,音效就是指由声音所制造的效果。所谓的声音则包括了乐音、及效果音。 他们的共同点都属于声音, 他们的共同点都属于声音,不同之处 语音是语音是人类发音器官发出的具有区别意义 功能的声音、人类能够听到的所有声音都称之为音频,它可能包括噪音、 声音被录制下来 功能的声音、人类能够听到的所有声音都称之为音频,它可能包括噪音、 以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理、 以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理、音效是一种效果 是声音 所制造的效果

音效就是指由声音所制造的效果,是指为增进一场面之真实感、气氛或戏剧讯息,而加于声 带上的杂音或声音。所谓的声音则包括了乐音和效果音。包括数字音效、环境音效、MP3 音效(普通音效、专业音效) 。

数字音频采样和量化过程所用的主要硬件是什么?急……
悬赏分:0|解决时间:2008-11-6 19:52|提问者:l 婂 i 錵 n 鎕 g

1、数字编码器 2、数字解码器 3、A/D(模/数)转换器 4一、音频编解码器 1.AD200单路音频解码器2.AD1200多路音频解码器3.AE200单路音频编 码器4.AE400多路音频编码器5. AE1200多路音频编码器

2.1数字音频基础
声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上, 音调的高低体现在声音的频率上。 声音用电表示时, 声音信号在时间和幅度上都是连续的模 拟信号,如下图所示。声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。

声音是一种连续的波

对声音信号的分析表明, 声音信号由许多频率不同的信号组成, 这类信号称为复合信号, 而单一频率的信号称为分量信号。 声音信号的一个重要参数就是带宽, 它用来描述组成复合 信号的频率范围。 如高保真声音信号(high-fidelity audio)的频率范围为10 Hz~20 000 Hz, 它的带宽约为20 kHz,而视频信号的带宽是6 MHz。 声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用 Hz 表示。例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压 信号的变化,更听不到这种变化。对于频率为几 Hz 到20 Hz 的空气压力信号,人们也听不 到,如果它的强度足够大,也许可以感觉到。人们把频率小于20 Hz 的信号称为亚音信号,

或称为次音信号(subsonic);频率范围为20 Hz~20 kHz 的信号称为音频(Audio)信号;虽 然人的发音器官发出的声音频率大约是80~3400 Hz,但人说话的信号频率通常为300~3000 Hz,人们把在这种频率范围的信号称为话音(speech)信号;高于20 kHz 的信号称为超音频 信号,或称超声波(ultrasonic)信号。超音频信号具有很强的方向性,而且可以形成波束, 在工业上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒 体技术中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声 等。 人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人 的听觉器官能感知的声音频率大约在20~20000 Hz 之间,在这种频率范围里感知的声音幅 度大约在0~120 dB 之间。除此之外,人的听觉器官对声音的感知还有其他一些重要特性, 它们在声音数据压缩中已经得到广泛的应用。 2.1.1 模拟音频和数字音频 回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容 等)对模拟信号进行处理。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟 信号处理元部件是相当困难的,而且成本也很高。 如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那末难点 就发生了转移, 把开发模拟运算部件的问题转变成开发数字运算部件的问题, 这就出现了数 字信号处理器(digital signal processor,DSP)。DSP 与通用微处理器相比,除了它们的 结构不同外,其基本差别是,DSP 有能力响应和处理采样模拟信号得到的数据流,如做乘法 和累加求和运算。 在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确 数字域而不在模拟域中做信号处理的主要优点是: 数字域而不在模拟域中做信号处理的主要优点是 首先, 的运算方法,它不受时间和环境变化的影响;其次, 的运算方法,它不受时间和环境变化的影响;其次,表示部件功能的数学运算不是物理上 实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外, 实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可 以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。 以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。 声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号, 声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技 术中以模拟电压的幅度表示声音强弱。 术中以模拟电压的幅度表示声音强弱。 模拟声音在时间上是连续的,而数字音频是一个数据序列 在时间上是断续的。 频是一个数据序列, 模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。数字 音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1 音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字 音频信号。计算机内的基本数制是二进制, 音频信号。计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格 这称之为编码音频数字化计算机内的音频必须是数字形式的, 式,这称之为编码音频数字化计算机内的音频必须是数字形式的,因此必须把模拟音频信 号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中, 号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音 频的抽样、量化和编码。 频的抽样、量化和编码。 2.1.2 数字音频的采样和量化 采样:音频实际上是连续信号,或称连续时间函数 x(t)。用计算机处理这些信号时, 必须先对连续信号采样,即按一定的时间间隔(T)取值,得到 x(nT)(n 为整数)。T 称采样周 期,1/T 称为采样频率。称 x(nT)为离散信号。

采样定理:设连续信号 x(t)的频谱为 x(f),以采样间隔 T 采样得到离散信号 x(nT),如 果满足: 当|f|≥fc 时,fc 是截止频率 T≤ 1/2fc 或 fc≤ 1/2T 则可以由离散信号 x(nT)完全确定连续信号 x(t)。当采样频率等于1/(2T)时,即 fN=1/2T,称 fN 为耐魁斯特频率。 常用的音频采样率有: 8kHz、 11.025kHz、 22.05kHz、 16kHz、 37.8kHz、 44.1kHz、 48kHz。 量化:为了把抽样序列 x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合 x(nT)。通常,用二进制数字表示量化后的样值是方便的。用 B 位二进制码字可以表示2B 个 不同的量化电平。存储数字音频信号的比特率为: I=B·fs(比特/秒) fs 是抽样率(抽样/秒) B 是每个样值的比特数(比特/采样) 量化采样的过程如下: 先将整个幅度划分成为有限个小幅度(量化阶距)的集合, 把落入 某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为 均匀量化。设△为量化阶距,量化器的最大范围是 Xmax,则: △=2Xmax / 2 对于小于(i+1/2)△,而大于(i-1/2)△的样值,均规定为相同的量化值 i△。 抽样值 x 与未量化样值 x(nT)的关系是:x=x(nT)+e(n)。其中,e(n)是量化误差, 即量化噪声,-△/2≤e(n)≤△/2。量化噪声随距离变大而增加。 2.1.3 数字音频的文件格式 如同存储文本文件一样, 存储声音数据也需要有存储格式。 在因特网上和各种机器上运 行的声音文件格式很多, 但目前比较流行的有以.wav (waveform), .au(audio), .aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。.wav 格式主要用在 PC 上,.au 主要用在 Unix 工作站上,.aiff 和 snd 主要用在苹果机和美国视算科技有限公司 (Silicon Graphics,Inc.,SGI)的工作站上。 用.wav 为扩展名的文件格式称为波形文件格式(WAVE File Format),它在多媒体编程 接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0) 文档中有详细的描述。该文档是由 IBM 和微软公司于1991年8月联合开发的,它是一种为交 换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。 波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是 Format Chunk(格式块)和 Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例

如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF 中的其他文件 块是可选择的。它的简化结构如下图所示。

2.1.4 音频信号的特点 在多媒体系统中,音频信号可分为两类:语音信号和非语音信号。 在多媒体系统中,音频信号可分为两类:语音信号和非语音信号。非语音信号由可分 为乐音和杂音,它的特点是不具有复杂的语意和语法信息,信息量低,识别简单。 为乐音和杂音,它的特点是不具有复杂的语意和语法信息,信息量低,识别简单。 音频信号处理的特点如下: (1).音频信号是时间依赖的连续媒体。 (2).即理想的合成声音应是立体声。 (3).对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声 学等。 从人与计算机交互的角度来看音频信号相应的处理如下: (1).人与计算机通信(计算机接收音频信号)。包括 音频获取;语音识别与理解。 (2).计算机与人通信(计算机输出音频)。 音频合成; 声音定位:音频/视频同步。 (3).人—计算机—人通信 人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编 码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。

2.2音频卡的工作原理
第一块音频卡是在1987年由 Adlib 公司设计制造, 当时主要用于电子游戏, 作为一种技 术标准,几乎被所有电子游戏软件采用。随后,新加坡 Creative 公司推出了音频卡系列产 品,广泛被世界各地微机产品选用,并逐步形成这一领域的标准。 2.2.1 音频卡的功能和分类 音频卡的主要功能是:音频的录制与播放、编辑与合成、MIDI 接口、文语转换、CD-ROM 接口及游戏接口等。 1.录制与播放 外部的声音信号,通过音频卡录入计算机,并以文件的形式保存。播放时,只需调出相 应的声音文件。音频卡还可以与 CD-ROM 驱动器相连,实现 CD 唱片的播放。 ?通常音频录放采用: 数字化音频采样频率范围:8~44.1kHz 量化位:8位/16位 通道数:立体声/单声道 ?编码与压缩: 基本编码方法:PCM 压缩编码方法:ADPCM(8:4,8:3,8:2,16:4)

CCITT A 律(13:8) CCITT ? 律(13:8) 实时硬件压缩/软件压缩 ?音频录放的自动动态滤波 ?录音声源:麦克风、立体声线路输入、CD。 ?输出功率放大器,直接驱动扬声器,且输出音量可调。 2.编辑与合成 编辑与合成就象一部数字音频编辑器, 可以对声音文件进行多种特效效果处理, 如增加 回音、淡入淡出等。 3.MIDI 和音乐合成 MIDI 是乐器数字接口标准,规定了电子乐器与计算机之间互通数据通信的协议。通过 软件, 计算机可以直接对外部电子乐器进行控制河操作。 通常音频卡给出的音乐合成功能和 性能依赖于合成芯片,有的音频卡带有波形表音乐合成。 4.文件转换和语音识别 有些音频卡捆绑了文语转换软件和语音识别软件。 (1)文语转换软件 文语转换就是把计算机内的文本文件转换成声音。 (2)语音识别软件 指特定人的命令识别系统,通过它可以利用语音来控制计算机或执行 Windows 下的命 令。 5.音频卡的其它接口 ?CD-ROM 接口 ?游戏棒接口 音频卡的分类主要根据数据采样量的位数来分,通常分为8位、16位、32位和64位等几 类。位数越高,音质就越好。 2.2.2 音频卡的工作原理 开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司 (Creative Labs.Inc.)开发的系列产品 SoundBlaster 系列音频卡,它是集语音与音乐于一 体的多煤体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。 1. Sound Blaster 特性 (1)强劲的音频处理引擎 (2)环境音效增加现有音频的内容 (3)Sound Blaster PCI 标准 (4)多音箱输出 (5)256复音音乐合成器 (6)环境音效功能扩展集/广泛的软件支持 2.音频卡的工作原理 音频卡主要由:声音的合成与处理、混合信号处理器及功率放大器、计算机总线接口和 控制器三部分组成。 (1)声音的合成与处理:是音频卡的核心,由数字声音处理器、FM 音乐合成器及 MIDI 控制器组成。 主要任务是完成声波信号的模/数、 数/模转换, 利用调频技术控制声音的音调、 音色和幅度。 (2)混合信号处理器及功率放大:内置数字/模拟混音器,可以选择输入一个或将几个 不同的声源进行混合录音。 (3)计算机总线接口和控制器:早期音频卡是 ISA 总线接口,现在音频卡是 PCI 总线

接口。总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及 DMA 控制逻辑组成。

音频卡的原理图

3.音频卡的安装 (1)改变缺省设置 (2)硬件安装 (3)软件安装

典型音频卡的平面图

音频卡的接口

2.3音频编码基础和标准
2.3.1 音频编码基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。 根据统计分析结 果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语 音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。 1.时域信息的冗余度 (1)幅度的非均匀分布 统计表明,语音中小幅度样本比大幅度样本出现概率高;其次,通话中有间隙,更出现 大量的低电平样本;此外,实际讲话中,信号功率电平趋向于现在编码范围的较低电平端。 因此,语音信号取样值的幅度分布是不均匀的。 (2)样本间的关系 取样数据的最大相关性存在于邻近样本间,取样速度提高,样本间的相关性将更强,根 据这种较强的一维相关性,利用 N 阶差分编码技术,可以进行有效的数据压缩。 (3)周期之间的相关 当声音只存在少数几个频率时, 在周期与周期之间存在着一定的相关性。 利用语音周期 之间信息冗余度的编码器比仅利用邻近样本间的相关的编码器效果要好。 (4)基音之间的相关 人说话的声音通常分两类:浊音,由声带振动产生,每一次振动使一股空气从肺部流进 声道,激励声道的各股空气之间的间隔称为音调间隔或基音周期。清音,分成摩檫音和破裂 音两种,前者用空气通过声道的狭窄部分而产生的湍流作为音源,后者声道在瞬间闭合,然 后在气压激迫下迅速地放开而产生破裂音源。 (5)静止系数 两人通话中, 平均有一半时间听对方讲, 在讲的过程中也会出现字、 词、 句之间的停顿, 通过分析表明, 语音间隙使得全双工话路的典型效率约为通话时间40% (或静止系数为0.6) 。 显然,通话间隔本身是一种冗余,若能检测出该静止段,便可“插空”传输更多的信息。 (6)长时自相关函数 在较长时间间隔进行统计,便得到长时自相关函数,长时统计表明,8kHz 的取样语音 的相邻样本平均相关系数高达0.9。 2.频域信息的冗余度

(1)非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均, 可得到长时功率谱密度函数, 其功率谱呈现强烈 的非平坦性。 从统计观点看, 这意味着没有充分利用给定的频段, 或者说有着固有的冗余度。 (2)语音特有的短时功率谱密度 语音信号的短时功率谱,在某些频率上出现峰值,而在另一些频率上出现谷值。这些峰 值频率通常称为共振峰频率,此频率不止一个,最主要的是第一和第二个,由它们决定了不 同的语音特征。 3.人的听觉感知机理 (1) 人的听觉具有掩蔽效应 (2) 人耳对不同频段的声音敏感度不同 (3) 人耳对语音信号的相位变化不敏感 4.音频编码的分类 (1)基于音频数据的统计特性进行编码,其典型技术是波形编码。如:脉冲编码调制 (PCM)、差值量化(DPCM)、自适应量化(APCM)、自适应预测编码(ADPCM)等。 (2)基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频 保持原音频的特性。 如: 码本激励线性预测编码 (CELP) 多脉冲激励线性预测编码 、 (MPLPC) 等。 (3)基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声 学模型,从而实现更高效率的数字音频的压缩。如:MPEG、AC-3等。 2.3.2 音频编码标准 当前编码技术发展的一个重要的方向就是综合现有的编码技术,制定全球的统一标准, 使信息管理系统具有普遍的互操作性并确保了未来的兼容性。 国际上, 对于语音信号压缩编 码的审议在 CCITT 下设的第十五研究组进行,相应的建议为 G 系列,多由 ITU 发表。
音频编码算法和标准

1. G.711 本建议公布于1972年,它给出话音信号的编码的推荐特性。话音的取样率为8kHz,允许

的偏差是±50p/m。每个采样值采用8为二进制编码,推荐使用 A 律和 ? 律编码。选用不同译 码规律的国家之间数据通路传送按 A 律译码信号, 使用 ? 律的国家应进行转换, 在物理介质 上连续传输时,符号位在前,最低有效位在后。 2. G.721 这个建议用于64kb/s 的 A 律和 ? 律 PCM 与32kb/s 的 ADOCM 之间的转换。

32kb/s 的 ADOCM 编码和解码框图

3. G.722 G.722建议的带宽音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用 于其他方式的音频,只能考虑波形编码。G.722编码采用了高低两个子带内的 ADPCM 方案, 高低子带的划分以4KHz 为界。 然后再对每个子带内采用类似 G.721建议的 ADPCM 编码, 因此 G.722建议的技术方案可以简写为 SB-ADPCM(子带-自适应差分脉冲码调制)。 4. G.728 G.728建议的技术基础是美国 AT&T 公司贝尔实验室提出的 LD-CELP(低延时-码激励线 性预测)算法。该算法考虑了听觉特性,其特点是:1)以块为单位的后向自适应高阶预测; 2)后向自适应型增益量化;3)以适应为单位的激励信号量化。

CELP 编码和解码框图

5. MEPG 中的音频编码 (1)编码器 编码器处理数字音频信号,并生成存储所需的数据流。编码器没有标准的 算法, 可以使用多种算法, 只要编码器输出的数据能使符合本标准的解码器解出适用的音频 流。有四种不同的编码模式:单声道模式、双声道模式、立体声模式和联合立体声模式。

音频编码器基本结构框图

(2)编码层次 根据应用需求,可以使用不同层次的编码系统,编码器的复杂性和性能 也随之提高。1)层Ⅰ包括将数字音频变成32个子带的基本映射模式,将数据格式化成块的 固定分段,决定自适应位分配的心理学模型,利用块扩压和格式化的量化器,理论上编码/ 解码的最少延迟约为19ms。2)层Ⅱ提供了位分配,缩放因子和抽样因子的附加编码,使用 不同的帧格式,理论上最小编码/解码延时约为35ms。3)层Ⅲ采用混合带通滤波器提高分辨 率,它增加了差值量化、自适应分段和量化值的熵编码,理论最小编码/解码延时约为59ms。 联合立体声编码作为一个附加特性,能够加入到任何一层中。 (3)存储 已编码的视频数据、音频数据、同步数据、系统数据和辅助数据均可一并存入 同一存储介质。 (4)解码 解码器按编码器定义的语法接收压缩的音频数据流,按解码部分的方法解出数 据元素,按滤波器的规定,用这些信息产生数字音频输出。

音频解码器结构框图

6. AC-3编码和解码 AC-3音频编码标准的起源是 DOLBY AC-1。 AC-1应用的编码技术是自适应增量调制 (ADM) , 它把20kHz 的宽带立体声音频信号编码成512kbps 的数据流。AC-1曾在卫星电视和调频广播 上得到广泛应用。1990年 DOLBY 实验室推出了立体声编码标准 AC-2,它采用类似 MDCT 的重 叠窗口的快速傅立叶变换(FFT)编码技术,其数据率在256kbps 以下。AC-2被应用在 PC 声 卡和综合业务数字网等方面。 (1)AC-3的编码 AC-3编码器接收标准的 PCM 码流,通过滤波器组变换到频域,然后进行频谱包络分析, 根据分析的结果确定相应频率抽样量化所用的存储空间,最后依据 AC-3语法格式形成码流。

AC-3编码器框图

(2)AC-3比特流及语法格式 1)AC-3比特流由连续的同步帧组成,同步帧首先用来保持同步信息,接着是比特流信 息头,之后是六个音频数据块,再后是附加数据和用于循环冗余校验的字。

AC-3比特流同步帧结构图

2)同步信息 由同步字(syncword)、检验码(crcl)、采样频率(fscod)和帧长度 代码(frmsizecod)四部分组成。 3)比特流标识 包括了版本、编码模式、LFE 信息、语音平衡、整体压缩等一系列与解 码有关的信息。 4)音频数据块 包含了音频数据以及与之相关的解码控制信息。 5)附加数据 保留了用户自己定义的一些信息。 6)错误校验 包含了一个错误校验字(crc2),它覆盖整个帧的数据。 (3)AC-3解码 AC-3的解码与编码是不对称的逆过程。 它将分析流码的正确性, 然后根据头部信息接出每 一声道的指数,继而分析它,并得出相应尾数所占的比特数,解出尾数,与指数一起合成频 域参数。在通过 IMDCT 和 IFFT 变化,形成标准的 PCM 码流。

AC-3解码器框图

2.4音乐合成和 MIDI 规范
2.4.1 音乐合成 自1976年应用调频(FM)音乐合成技术以来, 其乐音已经很逼真。 1984年又开发出另一种 更真实的音乐合成技术--波形表(Wavetable)合成。 一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中, 它还应具备时值--持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。 音高:音高指声波的基频。基频越低,给人的感觉越低沉。对于平均律(一种普遍使用 的音律)来说,各音的对应频率如图所示。知道了音高与频率的关系,我们就能够设法产生 规定音高的单音了。 音色:具有固定音高和相同谐波的乐音,有时给人的感觉仍有很大差异。比如人们能够 分辨具有相同音高的钢琴和小提琴声音, 这正是因为他们的音色不同。 音色是由声音的频谱 决定的:各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。“小号”的声音之所 以具有极强的穿透力和明亮感, 只因“小号”声音中高次谐波非常丰富。 各种乐器的音色是

由其自身结构特点决定的。 用计算机模拟具有强烈真实感的旋律, 音色的变化是非常重要的。 响度和时值:响度是对声音强度的衡量,它是听判乐音的基础。人耳对于声音细节的分 辨与响度直接有关:只有在响度适中时,人耳辨音才最灵敏。如果音响度太低,便难以正确 差别它的音高和音色;而音响度过高,会影响差别的准确性。时值具有明显的相对性,一个 音只有在包含了比它更短的音的旋律中才会显得长。时值的变化导致旋律的进行,或平缓、 均匀;或跳跃、颠簸,以表达不同的情感。 FM 音乐合成 音乐合成器的先驱 Robert Moog 采用了模拟电子器件生成了复杂的乐音。20世纪80年代 初,美国斯坦福大学(Stanford University)的一名叫 John Chowning 的研究生发明了一种 产生乐音的新方法,这种方法称为数字式频率调制合成法(digital frequency modulation synthesis),简称为 FM 合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而 不是用模拟电子器件把它们组合起来, 通过数模转换器(digital to analog convertor, DAC) 来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给 Yamaha 公司,该公司把这种 技术做在集成电路芯片里,成了世界市场上的热门产品。FM 合成法的发明使合成音乐工业 发生了一次革命。 FM 合成器生成乐音的基本原理如下图2.41-1所示。 它由5个基本模块组成: 数字载波器、 调制器、 声音包络发生器、 数字运算器和数模转换器。 数字载波器用了3个参数: 音调(pitch)、 音量(volume)和各种波形(wave); 调制器用了6个参数: 频率(frequency)、 调制深度(depth)、 波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect);乐器声音除了有 它自己的波形参数外, 还有它自己的比较典型的声音包络线, 声音包络发生器用来调制声音 的电平, 这个过程也称为幅度调制(amplitude modulation), 并且作为数字式音量控制旋钮, 它的4个参数写成 ADSR,这条包络线也称为音量升降维持静音包络线(Attack,decay, sustain,release,ADSR)。

图2.41-1 FM 声音合成器的工作原理

在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的 FM 合成器所选用的 波形也不同。下图是 Yamaha OPL-III 数字式 FM 合成器采用的波形。

声音合成器的波形

各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现 的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参 数去组合才能产生所希望的乐音,这就是 FM 合成器的算法。 通过改变图2.41-1中所示的参数,可以生成不同的乐音,例如: (1)改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。 (2)改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。 (3)快速改变调制波形的频率(即音调周期)可以改变颤音的特性。 (4)改变反馈量,就会改变正常的音调,产生刺耳的声音。 (5)选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。 在多媒体计算机中,图2.41-1中的13个声音参数和算法共14个控制参数以字节的形式存 储在声音卡的 ROM 中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成 ROM 的地址,从该地址中取出的数据就是用于产生乐音的数据。FM 合成器利用这些数据产生的 乐音是否真实, 它的真实程度有多高, 这就取决于可用的波形源的数目、 算法和波形的类型。 2.4.2 MIDI 规范 MIDI 是 Musical Instrument Digital Interface 的首写字母组合词,可译成“电子乐 器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和 计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI 已经逐步被音 乐家和作曲家广泛接受和使用。MIDI 是乐器和计算机使用的标准语言,是一套指令(即命令 的约定),它指示乐器即 MIDI 设备要做什么,怎么做,如演奏音符、加大音量、生成音响效 果等。MIDI 不是声音信号,在 MIDI 电缆上传送的不是声音,而是发给 MIDI 设备或其它装 置让它产生声音或执行某个动作的指令。 MIDI 标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为 MIDI 文件存储的是命令, 而不是声音波形; 容易编辑, 因为编辑命令比编辑声音波形要容易得多; 可以作背景音乐,因为 MIDI 音乐可以和其它的媒体,如数字电视、图形、动画、话音等一 起播放,这样可以加强演示效果。 产生 MIDI 乐音的方法很多,现在用得较多的方法有两种:一种是(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这 两种方法目前主要用来生成音乐。 在介绍 MIDI 之前先简单介绍 FM 合成法, 然后介绍乐音样 本合成法,再介绍 MIDI 系统。 1. MIDI 系统 MIDI 协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI 信 息是以“MIDI messages”传输的,它可以被认为是告诉音乐合成器(music synthesizer) 如何演奏一小段音乐的一种指令,而合成器把接收到的 MIDI 数据转换成声音。国际 MIDI 协会(International MIDI Association)出版的 MIDI 1.0规范对 MIDI 协议作了完整的说明。 MIDI 数据流是单向异步的数据位流(bit stream),其速率为31.25 kbps,每个字节为 10位(1位开始位, 8位数据位和1位停止位)。 MIDI 乐器上的 MIDI 接口通常包含3种不同的 MIDI 连接器,用 IN(输入), OUT(输出)和 THRU(穿越)。MIDI 数据流通常由 MIDI 控制器(MIDI controller)产生,如乐器键盘(musical instrument keyboard),或者由 MIDI 音序器(MIDI sequencer)产生。MIDI 控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI 数据流,MIDI 音序器是一种装置,允许 MIDI 数据被捕获、存储、编辑、组合和重奏。 来自 MIDI 控制器或者音序器的 MIDI 数据输出通过该装置的 MIDI OUT 连接器传输。 通常,MIDI 数据流的接收设备是 MIDI 声音发生器(MIDI sound generator)或者 MIDI 声音模块(MIDI sound module),它们在 MIDI IN 端口接收 MIDI 信息(MIDI messages),然 它由一个 MIDI 键盘控制器和一个 MIDI 后播放声音。 2.42-1表示的是一个简单的 MIDI 系统, 图

声音模块组成。 许多 MIDI 键盘乐器在其内部既包含键盘控制器, 又包含 MIDI 声音模块功能。 在这些单元中, 键盘控制器和声音模块之间已经有内部链接, 这个链接可以通过该设备中的 控制功能(local control)对链接打开(ON)或者关闭(OFF)。

图2.42-1简单的 MIDI 系统

单个物理 MIDI 通道(MIDI channel)分成16个逻辑通道, 每个逻辑通道可指定一种乐器, 如图2.42-2所示。在 MIDI 信息(MIDI messages)中,用4个二进制位来表示这16个逻辑通道。 音乐键盘可设置在这16个通道之中的任何一个,而 MIDI 声源或者声音模块可被设置在指定 的 MIDI 通道上接收。

图2.42-2 MIDI 的通道概念

在一个 MIDI 设备上的 MIDI IN 连接器接收到的信息可通过 MIDI THRU 连接器输出到另 一个 MIDI 设备,并可以菊花链的方式连接多个 MIDI 设备,这样就组成了一个复杂的 MIDI 系统,如图2-12所示。在这个例子中,MIDI 键盘控制器对 MIDI 音序器(MIDI sequencer)来 说是一个输入设备,而音序器的 MIDI OUT 端口连接了几个声音模块。作曲家可使用这样的 系统来创作几种不同乐音组成的曲子, 每次在键盘上演奏单独的曲子。 这些单独曲子由音序 器记录下来, 然后音序器通过几个声音模块一起播放。 每一曲子在不同的 MIDI 通道上播放, 而声音模块可分别设置成接收不同的曲子。例如,声音模块#1可设置成播放钢琴声并在通 道1接收信息, 模块2设置成播放低音并在通道5接收信息, 而模块2设置成播放鼓乐器并在通 道10上接收消息等。在图2.42-3中使用了多个声音模块同时分别播放不同的声音信息。这些 模块也可以做在一起构成一个叫做多音色(multitimbral)的声音模块, 它同样可以起到同时 接收和播放多种声音的作用。

图2.42-3复杂 MIDI 系统

图2.42-4是用 PC 机构造的 MIDI 系统,该系统使用的声音模块就是这样一种单独的多音 色声音模块。在这个系统中,PC 机使用内置的 MIDI 接口卡,用来把 MIDI 数据发送到外部 的多音色 MIDI 合成器模块。像多媒体演示程序、教育软件或者游戏等应用软件,它们把信 息通过 PC 总线发送到 MIDI 接口卡。MIDI 接口卡把信息转换成 MIDI 消息(MIDI messages), 然后送到多音色声音模块同时播放出许多不同的乐音,例如钢琴声、低音和鼓声。使用安装 在 PC 机上的高级的 MIDI 音序器软件, 用户可把 MIDI 键盘控制器(MIDI keyboard controller) 连接到 MIDI 接口卡的 MIDI IN 端口,也可以有相同的音乐创作功能。

图2.42-4使用 PC 机构成的 MIDI 系统

使用 PC 机构造 MIDI 系统可以有不同的方案。 例如, 可把 MIDI 接口和 MIDI 声音模块组 合在 PC 添加卡上。多媒体个人计算机 MPC(Multimedia PC)规范就要求 PC 添加卡上必须有 这样的声音模块,称为合成器(synthesizer)。通过已有的电子波形来产生声音的合成器称 为 FM 合成器(FM synthesis),而通过存储的乐音样本来产生声音的合成器称为波表合成器 (wave table synthesis)。 MPC(Multimedia PC)规格需要声音卡的合成器是多音色(muti-timbral)和多音调 (polyphonic)的合成器。 多音色是指合成器能够同时播放几种不同乐器的声音, 在英文文献 里常看到用 voices 和 patches 来表示,音色就是把一个人说话(或一种乐器)的声音与另一 个人说话(或另一种乐器)的声音区分开来的音品;多音调是指合成器一次能够播放的音符 (note)数。MPC 规格定义了两种音乐合成器:基本合成器(Base-level synthesizer)和扩展 合成器(Extended synthesizer),基本合成器和扩展合成器之间的差别如下表所示。
基本合成器和扩展合成器之间的差别

合成器名称 (synthesizer)

旋律乐器声(melodic instruments)

打击乐器声(percussive instruments)

音色数 ) 基本合成器 扩展合成器 3种音色 9种音色

音调数 ) 6个音符 16个音符

音色数 音调数(polyphony) ) 3种音色 8种音色 3个音符 16个音符

(timbres (polyphony (timbres

基本合成器必须具有同时播放3种旋律音色和3种打击音色(鼓乐)的能力, 而且还必须具 有同时播放6个旋律音符和3个打击音符的能力,因此,基本合成器具有9种音调;扩展合成 器要能够同时播放9种旋律音色和8种打击音色。 2. MIDI 消息 MIDI 设备使用的一系列 MIDI 音符, 可被认为是告诉音乐合成器如何播放一小段音乐的 指令。因为 MIDI 数据是一套音乐符号的定义,而不是实际的音乐声音,因此 MIDI 文件的内 容被称为 MIDI 消息(MIDI messages)。一个 MIDI 消息由1个8位的状态字节并通常跟着2个数 据字节组成。在状态字节中,最高有效位设置成“1”,低4位用来表示这个 MIDI 消息是属 于哪个通道,4位可表示16个可能的通道,其余3位的设置表示这个 MIDI 消息是什么类型的 消息。MIDI 消息可分成通道消息(Channel Messages)和系统消息(System Messages)两大类, 如下图2.42-5所示。 MIDI 通道消息可分成通道声源消息(Voice Messages)—携带的演奏数据,和通道方式 消息(Mode Messages)—表示合成器响应 MIDI 数据的方式;MIDI 系统消息分成公共消息 (Common Messages)—标识在系统中的所有接收器、实时消息(Real Time Messages)—用于 MIDI 部件之间的同步和独占消息(Exclusive Messages)—厂商的标识代码。

图2.42-5 MIDI 信息 3. MIDI 音序器和标准 MIDI 文件 MIDI 合成器实时接收和处理 MIDI 消息(MIDI messages)。 当合成器接收到一个“note on (乐音开)”MIDI 消息时就演奏相应的声音,当接收到一个“note off (乐音关)”MIDI 消息 时就停止演奏。如果 MIDI 数据源是乐器键盘,“note on”消息就实时产生,在像这样的实 时应用中,就无需与 MIDI 消息一起发送一个定时信息。如果 MIDI 数据存储成数据文件,或 者使用音序器编辑的数据文件,MIDI 消息就需要某种形式的定时标记(time-stamping)。 国际 MIDI 协会(International MIDI Association)出版了标准 MIDI 文件(Standard MIDI Files)规范,该标准说明了处理定时标记 MIDI 数据的一种标准化方法。这种方法适合 各种应用软件共享 MIDI 数据文件,这些软件包括音序器、乐谱软件包和多媒体演示软件。 标准 MIDI 文件(Standard MIDI File)规范定义了3种 MIDI 文件格式,MIDI 音序器能够

管理文件标准规定的多个 MIDI 数据流,即声轨(tracks)。MIDI 文件格式0(Format 0)规定 所有 MIDI 音序数据(MIDI sequence data)必须存储在单个声轨上,它仅用于简单的单声轨 设备; MIDI 文件格式1(Format 1)规定数据以一个声轨集的方式存储; MIDI 文件格式2(Format 2)可用几个独立模式存储数据。

2.5语音识别
随着计算机技术的发展,人们已经不满足仅仅通过键盘、鼠标、显示器同计算机交换信 息, 需要一种更加自然、 更加能为多数人所接受的方式与计算机沟通, 让计算机听懂人的话, 或是用语音控制各种自动化系统。于是诞生了一门新学科-计算机语音学,主要包括:语音 编码、语音合成、语音识别、语种识别、说话认识别以及说话人确认等。 语音识别一直以来是人们美好的理想, 随着计算机技术与应用的发展, 越来越多的人开 始关注语音识别技术。 2.5.1 语音识别的发展和分类 机器语音识别的研究从20世纪50年代就开始, 从70年代后期开始, 语音识别技术沿着三 个不同的方向来扩展研究领域:1)特定人向非特定人扩展;2)孤立词向连接词扩展;3) 小词汇量向大词汇量扩展。在具体的应用系统中,采用更加复杂的聚类算法,产生新的基于 动态规划的匹配算法。 语音识别的研究领域比较广,归纳起来,一般有以下四个方面:1)按可识别的词汇量 多少语音识别系统可分为小、中、大词汇量三种。一般来说,能识别词汇小于100的,称为 小词表语言识别;大于100的称为中词表语音识别;大于1000的称为大词表语音识别。词表 越大,困难越多。2)按照语音的输入方式语音识别的研究集中于对孤立词、连接词和连续 语音的识别。3)按发音人可分为特定人、限定人和非特定人语音识别三种对于特定人进行 语音识别的系统,使用前需由特定人对系统进行训练。 如果需要限定的几个人使用同一系 统,则可以研制成限定人识别系统。 如果一个系统不必经使用者训练就可以识别各种发音 者的语音,则称为非特定人语言识别。4)对说话人的声纹进行识别,这是研究如何根据语 音来辨别说话人的身份、确定说话人的姓名。 2.5.2 汉语语音识别系统的工作原理及其应用 汉语语音听写机(CDM,Chinese Dictation Machine)是非特定人、大词汇量的连续语 流(或连接词)识别系统,其目的是由计算机将人的语流转化为相应的文本信息。在当今人 与计算机交互日益频繁的条件下, 探索高效而自然的交互方式是人们不断努力的目标。 汉语 语音听写机正是这样一种十分有潜力的人机交互系统, 它可望把人从不自然的信息输入方式 中解放出来,从而大大推进计算机的应用和发展。 1.汉语本身的特点对语音识别系统的影响 在语音识别方面,汉语与西方语言相比具有的优势: (1)汉语是音节性很强的语言,每个字都是以单音节为单位的。 (2)汉语音节的构成比较简单和规整,一般是由声母和韵母组成,个别的仅含有韵母。 (3)汉语是一种有调语言,每个音节发音时间较长,且有较稳定的有调段,这一点对 把握连续语音中的语气有很大的帮助。 (4)汉语音节的协同发音和音变问题较少,发音相对较稳定,这对声学层面上的识别 是很有利的。 汉语语音识别具有的难点: (1)汉语的同音字太多,这给声学层识别和语言层纠错带来不少困难。 (2)汉语是一种内涵语言,实际上下文环境、语气和语调等都对意义的理解起决定性 的作用。同时,汉语的语义单元是词,汉语构词法复杂,词的边界不确定,动词没有明显的

时态,对语言处理缺乏提示,因而决定了语言模型处理的对象具有很高的复杂度。 2.汉语语音识别系统的工作原理 (1)连续语音流的预处理 波形硬件采样率的确定、分帧大小与帧移动策略的确定; 剔除噪声的带通滤波、高频预加重处理、各种变换策略; 波形的自动分切(依赖于识别基元的选择方案)。 (2)特征参数提取 语音识别的过程实际上是对语音特征参数模式的比较和匹配的过程。 语音特征参数的选 取对系统识别结果起着重要的作用。 语音识别系统常用的特征参数有线性预测系数、 倒频谱 系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。 (3)参数模板存储 在建立识别系统时,首先进行特征参数提取,然后对系统进行训练和聚类。通过训练, 系统建立并存储一个该系统需识别字的参数模板库。 (4)识别判决 识别时, 待识别语音信号经过与训练时相同的特征参数提取后, 与模式模板存储器中的 模式进行匹配计算和比较,并根据一定的规则进行识别判决,最终输出识别结果。 3.汉语语音识别系统的最终目标 (1)不存在对话人的限制,即非特定人的; (2)不存在对词汇量的限制,即急于大词汇表的; (3)不存在对发音方式的限制,即可识别连续自然发音; (4)系统整体识别率应该相当高,接近于人类对自然语音的识别能力。 4.语音识别技术的应用 语音识别技术应用于需要以声音作为人机交互手段的场合, 主要是实现听写和命令控制 功能。从技术成熟度、实际需要以及应用面大小等方面考虑,办公自动化、电话商业服务是 主要的应用领域。 5.计算机语音输出概述 一般来讲,实现计算机语音输出有两种方法:一是录音/重放,二是文-语转换。 用第一 种方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要 时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保留特定人或乐 器的音色。 但所需的存储容量随发音时间线性增长。 第二种方法是基于声音合成技术的一种 声音产生技术。它可用于语音合成和音乐合成。文-语转换是语音合成技术的延伸,它能把 计算机内的文体转换成连续自然的语声流。 若采用这种方法输出语音, 应预先建立语音参数 数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或 语言学规则,连接成自然的语流。文-语转换的参数库不随发音时间增长而加大;但规则库 却随语音质量的要求而增大。 计算机话语输出按其实现的功能来分, 可以分为以下档次: 有限词汇的计算机语音输出, 基于语音合成技术的文字-语音转换 (TTS)。 [课后作业] 单项选择题1-9: 1、数字音频采样和量化过程所用的主要硬件是: (A)数字编码器 (B)数字解码器 (C)模拟到数字的转换器(A/ D 转换器) (D)数字到模拟的转换器(D/ A 转换器) 答: (C) 2、音频卡是按( )分类的。 (A)采样频率 (B)声道数 (C)采样量化位数 (D)压缩方式

答: (C) 3、两分钟双声道,16位采样位数,22.05kHz 采样频率声音的不压缩的数据量是: (A)5.05MB (B)10.58MB (C)10.35MB (D)10.09MB 答: (D) 4、目前音频卡具备以下( )功能。 (1)录制和回放数字音频文件 (2)混音 (3)语音特征识别 (4)实时解/压缩数字单频文件 (A) (3) (1) (4) (B) (2) (1) (4) (C) (3) (2) (4) (D)全部 答: (B) 5、以下的采样频率中哪个是目前音频卡所支持的。 (A)20kHz (B)22.05 kHz (C)100 kHz (D)50 kHz 答: (B) 6、1984年公布的音频编码标准 G.721,它采用的是( )编码。 (A)均匀量化 (B)自适应量化 (C)自适应差分脉冲 (D)线性预测 答: (C) 7、AC-3数字音频编码提供了五个声道的频率范围是: (A)20Hz 到2 kHz (B)100Hz 到1 kHz (C)20Hz 到20 kHz (D)20Hz 到200 kHz 答: (C) ) 8、MIDI 的音乐合成器有: (1)FM (2)波表 (3)复音 (4)音轨 (A)仅(1) (B) (2) (C) (2) (1) (1) (3) (D)全部 答: (B) 9、下列采集的波形声音质量最好的是: (A) 单声道、8位量化、22.05 kHz 采样频率 (B)双声道、8位量化、44.1 kHz 采样频率 (C)单声道、16位量化、22.05 kHz 采样频率 (D) 双声道、16位量化、44.1 kHz 采样频率 答: (D) 10、简述音频编码的分类及常用编码算法和标准。 答:音频编码分为: (1)基于音频数据的统计特性进行编码,其典型技术是波形编码。其目标是使重建语 音波形保持原波形的形状,PCM(脉冲编码调制)是最简单的编码方法。还有差值量化 (DPCM) 、自适应量化(APCM)和自适应预测编码(ADPCM)等算法。 (2)基于音频声学参数进行参数编码,可进一步降低数据率。其目标是使重建音频保 持原音频特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优 点是数据率低,但还原信号的质量较差,自然度低。 (3)基于人的听觉特性进行编码。从人的听觉系统出发,利用掩蔽效应设计心理学模 型,从而实现更高效率的数字音频压缩。而最有代表性的是 MPEG 标准中的高频编码和 Dolby AC-3。 国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)提出了一系列有关音频 编码算法和国际标准。如 G.711 64Kbps(A)律 PCM 编码标准、G7. 21采用 ADPCM 数据率 为32bps。还有 G.722、G.723、G.727和 G.728等。

2.音频子系统 音频子系统由音频信号处理器、 数字到模拟的转换硬件以及模拟滤波器组成。 它与视频

子系统并行操作、解决音频信号的压缩、编码和解码,还解决音频信号的 A/D、D/A 转换以 及音响声效的特技处理。 音频子系统的核心器件是 AD(Analog Device)公司的 AD-2105数字信号处理器(DSP) , 通过它完成所有音频信号的压缩和解压缩任务。DVI 系统采用自适应预测编码(ADPCM)算 法将16位的采样数据压缩编码成4位码,最后将压缩的音频数据输出到 D/A 转换器,DSP 的 垂直消隐中断出现在每个显示帧的场逆程,以此来解决视频数据流和音频数据流的同步问 题。 数字到模拟量的转换器是由 Burr-Brown 公司生产的 PCM66P 单片立体声16位串行接口组 成。 跟着 D/A 变换器是双通道的模拟滤波器, 其截止频率近似固定在17KHz, 并且有5个极点。

数字化时代对人类的发展产生了巨大的变化,我们亲身经历了数字技术的蓬勃发展,目睹了它 以惊人的速度,渗透到社会与生活的方方面面。数字化技术已全面的进入到广播影视领域,正 对我们的行业带来实质性的变革。清楚地把握数字音频技术的发展动向,对正确推进广播影视 领域的数字化进程将有极其重要的意义。 一、 模拟与数字音频技术的关系和互补性 把握数字音频技术发展的方向,我们必须对数字音频与模拟音频技术之间有一个科学的认识, 并清楚这样一个概念:数字化是一种手段,但我们始终离不开这个模拟的世界,所以我们要清 楚模拟与数字音频技术的优势和弱点。 对音频的质量上来说,数字音频通过模数/数模转换后,越接近模拟音质就越好。但是,数字化 技术在音频的编辑、合成、效果处理,存储、传输和网络化,以及在价格等方面,有极大的优 势。半导体技术高速发展的今天,在专业音频领域,为了得到温暖的模拟音质,仍旧需要采用 电子管器件,如电子管话筒、电子管前置放大器和压缩器,以及功率放大器。为了与数字化音 频系统配合使用,不少最新的音频专业电子管产品带有了数字接口。所以,数字化时代的音频 技术,并不是弃模变数,而是两者有机的结合,取长补短,用数字化技术去追求模拟的音质, 用数字化手段来弥补传统音频设备的弱点。 目前世界上公认音质最好的调音台,如 AMEK 9098和 SSL 9000J 系列,就是模拟数控台,即模 拟信号流,数字化的控制系统,另外还配置了模数转换接口,这就是模拟音频技术与数字技术 结合的实例。 电脑技术已将人们带入了一个虚拟世界。 音频领域也不例外, 音频工作站的发展已越来越成熟, 人们已称它为虚拟录音棚。虚拟音频制作系统中,包括了录音机、调音台、周边信号发生器、 非线性编辑和数据库等。这种虚拟系统不仅有价格的优势,而且功能齐全,符合数字化,网络 化发展的要求,其音频的质量可与一些高级传统音频设备抗衡。它符合数字化、网络化的要求, 其价格与传统设备相比,则更有优势。 近年来,虚拟音频制作系统对界面的外控操作上,正逐步向传统设备的操作概念发展。还与传 统调音台有机结合。除 Protools 音频工作站已有了 Pro Controls 外控操作台外,索尼公司已 将 DMX-100调音台与 Pyramix 虚拟音频制作系统结合, DMX-100调音台的48路数字音频通道可通 过 MADI 模数/数模转换器与 Pyramix 连接, Pyramix 可通过 DMX-100的24个电动马达推子实现外 部自动化控制。 另外 SSL 9000J 系列高级模拟数控台也可与 Pyramix 虚拟音频制作系统配合使 用, 音频信号可通过 PCM/MADI 转换器或 DSD 转换器与 Pyramix 连接, SSL 9000J 系列调音台上

的控制键钮和推子可通过索尼422协议与 Pyramix 连接。 上述种种可以看到,数字时代音频的发展,从音质上讲,数字与模拟的追求是一致的;从数字 技术在音频领域的应用来看,它仍然依托着传统的模拟设备而向前发展。 二、 数字音频格式 PCM 和 DSD 的发展状况 PCM 脉码调制数字音频格式是70年代末发展起来的,记录媒体之一的 CD,80年代初由飞利浦和 索尼公司共同推出。PCM 的音频格式也被 DVD-A 所采用,它支持立体声和5.1环绕声,1999年由 DVD 讨论会发布和推出的。 PCM 的比特率,从14-bit 发展到16-bit、18-bit、20-bit 直到24-bit;采样频率从44.1kHz 发 展到192kHz。到目前为止 PCM 这项技术可以改善和提高的方面则越来越来小。只是简单的增加 PCM 比特率和采样率,不能根本的改善它的根本问题。其原因是 PCM 的主要问题在于: 1)任 何 PCM 数字音频系统需要在其输入端设置急剧升降的滤波器,仅让20 Hz - 22.05 kHz 的频率 通过(高端22.05 kHz 是由于 CD 44.1 kHz 的一半频率而确定) ,这是一项非常困难的任务。2) 在录音时采用多级或者串联抽选的数字滤波器 (减低采样率) 在重放时采用多级的内插的数字 , 滤波器(提高采样率) ,为了控制小信号在编码时的失真,两者又都需要加入重复定量噪声。这 样就限制了 PCM 技术在音频还原时的保真度。

2010-10-28 08:53 回复

不屑世俗

2楼

为了全面改善 PCM 数字音频技术,获得更好的声音质量,就需要有新的技术来 替换。近年来飞利浦和索尼公司再次联手,共同推出一种称为直接流数字编码 技术 DSD 的格式, 其记录媒体为超级音频 CD 即 SACD, 支持立体声和5.1环绕声。
高山前辈 135位粉丝

DSD 音频格式简化了信号流程,去掉了 PCM 使用的多级滤波器,将模拟音频直 接以2.8224MHz 的高采样频率,按1-bit 的数字脉冲来记录。虽然 DSD 格式表示 的声音信号是数字化数据,但是它又与真正的声波非常接近,可完整的记录当 今最佳模拟系统的信息。最好的30ips 半英寸模拟录音机能记录的频率能超过5 0KHz,而 DSD 格式的频率响应指标为从 DC 到100KHz。能覆盖高级模拟调音台的 动态范围,通过其音频频段的剩余噪声功率,保持在-120dB。DSD 的频率响应 和动态范围,是任何数字和模拟的录音系统无法与之比拟的。从声音的质量上

来说, 数字音频技术是为了接近模拟声音的质量。DSD 音频格式的发展将更有 利的与模拟音频系统配合。 三、 为何 DSD 音频格式是最好的数字音频格式 l 2001年 AES 110年会的报告指出 DSD 是最好的音频格式选择。 l 环球, EMI 和 Virgin 也新加入了索尼和飞利浦的 SACD/DSD 的行列,除了华 纳之外,几乎所有大唱片公司都支持 SACD/DSD 的格式。 l 当前还没有真正的直接24/192kHz 录音,仅仅是从24/48kHz 录音转换的。真 正的 DVD-A 出版非常少,目前还没有这种格式的市场。而在北美已超过400多版 的 SACD 的出版,并且继续在发展。 l 按照 Stereophile(在北美高档音频杂志)的最新统计指出有高达30%的读者 表示将在2001年底加入 SACD 的行列,或者在明年初有31%的读者加入此行列。 而 DVD-A 的百分比是12%。当问及读者支持哪一种格式时,回答是 SACD。 l 几乎所有主要的 DVD-A 与 SACD 格式的试听评价中,都由 SACD 取胜。这包括 Stereophile、 Absoulte Sound 、Surround Sound Review 和 Widescreen Re view 音频发烧杂志以及如 Bob Ludwig 那样的,对录音工业有非常影响的专业 工程师。 l 在今后若干月有几个发展动向,将会有新的芯片出现可同时播放 SACD 和 DVD -A 格式,这将被用到新的 DVD 播放机中。主要的问题是这种多功能的芯片要兼 容多格式对解码的音频质量不会太好。 l 除了音质方面的改善外, SACD 的另一个关键要点是有完善的防盗版保护方式, 在 SACD 上同时有可见和不可见的水印,SACD 播放机要读到水印才能工作。 l SACD 具有 SACD 和 CD 两层,仍旧可以汽车里的 CD 中播放,而 DVD-A 则不行。 l 对音乐存储媒体来说,74分钟的容量是十分重要的。4.7 GB 的 SACD 能存储7 4分钟 DSD 8个通道( 2通道立体声和 DSD 6通道的环绕声) 采用了一种被称 。 为直接流数字转换( Direct Stream Transfer)无损编码方式的飞利浦技术。 这种无损编码可节省50%的存储空间。 DVD-A 采用的是一种被称为 MLP 无损包 装(Meridian Lossless Packing )的编码技术。4.7 GB 的 DVD-A 能存储55 分钟20 bit,192kHz PCM 6通道的环绕声。这种无损编码可节省35%-50%的存储 空间。 四、 DSD 的应用范围 l DSD 的脉冲序列可以直接下转为传统的 PCM 数字音频。目前在 PCM 和 DSD 共 存的期,采用 DSD 下转运算技术,可以尽量保证音频信号的质量,消除内部重 复量化错误,抑制波动,将混淆误差控制在最小。将 DSD 比特流下转为16-bit /44.1 kHz 数字音频,直接记录在普通的 CD 上,可使16-bit 的数字音频接近2 0到24-bit 的精度,使得16-bit 的 CD 尽可能的保持 DSD 的音质。 四、 DSD 的应用范围 l DSD 的脉冲序列可以直接下转为传统的 PCM 数字音频。目前在 PCM 和 DSD 共

存的期,采用 DSD 下转运算技术,可以尽量保证音频信号的质量,消除内部重 复量化错误,抑制波动,将混淆误差控制在最小。将 DSD 比特流下转为16-bit /44.1 kHz 数字音频,直接记录在普通的 CD 上,可使16-bit 的数字音频接近2 0到24-bit 的精度,使得16-bit 的 CD 尽可能的保持 DSD 的音质。

2010-10-28 08:53 回复

不屑世俗

3楼

l DSD 选取2.8224 MHz 高采样频率,其优势是可高精度的按整数的乘法和除法 下转当前所有 PCM 采样频率。以 DSD 格式记录既能保证音频质量,又能通过下 转满足不同的应用和要求。除了用于音乐录音外,也适用于影视的音频制作,
高山前辈 135位粉丝

最终合成的节目可通过下转,用来传输或记录在媒体上,如5.1的节目需要进行 AC-3或 DTS 的编码。DSD 音频格式与现有的音频设备配合,不仅仅可以改善当 前节目的音频质量,而且对高清晰数字电影和高清晰数字电视的音频是一个极 大的支持。 l DSD 是理想的节目素材存储格式,用于母版的保存或数据库的建立。DSD 的采 样频率是 CD 的64倍即2,822,400 Hz。但是 DSD 每个采样仅占用1 bit,因此每 个通道每秒的比特率为1 x 2,822,400 Hz 或 2,822,400 bits。而 CD 每个采样 占用16 bits,因此每个通道每秒的比特率为16 x 44,100 Hz 或705,600 bits。 实际上,DSD 总的数据流只大于普通 CD 的4倍,数据量可以被当前的磁带和硬 盘容纳。 l DSD 也是保存节目的理想格式。各国音响资料馆都面临着一个共同的问题, 磁带只有30年的保存期,而每种版权则有100年的保护。选择哪种方案可将原始 资料较理想的保存下来?这个问题一直得不到解决的方案,而资料越积越多, 部分老化的资料已无法恢复。直到 SACD 的出现,美国国会所属的国家档案馆首 先决定采用。 l DSD 的录音制作与传统的录音制作,对设备和技术上没有重要的区别。需要 增加的是 DSD 的模数/数模转换器和 DSD 录音编辑工作站, 不少录音棚已经采用 高级模拟调音台和现存的 PCM 录音设备成功的进行了 DSD 的录音。飞利浦发展

了一种 DSD 录音技术的 P3D 的转换格式,即可以将64 DSD bits 描述成3 x 24bit AES-EBU 数字节,有可能将一台24轨/24-bit 44.1 kHz PCM 录音机改变成 为一台8路的 DSD 录音机。 五、 Pyramix 虚拟音频制作系统 目前 SACD 和 DVD-A 都在推广之中,PCM 与 DSD 两种数字音频格式需要一段共存 期。 我们必须考虑 PCM/DSD 的兼容和转换。因此 Pyramix 虚拟音频制作系统 有很大的优势, 它是当前仅有一个完善系统可同时完成 DVD-A (24/192kHz)和 S ACD/DSD (1bit/2.8Mhz)的音频制作系统。上述文章已经提到索尼公司已将 DMX -100调音台与 Pyramix 虚拟音频制作系统结合,另外,世界数字和模拟音频设 计大师 Ed Meitner 也为 Pyramix 配置了当今世界最好的8路模数/数模转换器, 支持 DSD 和 PCM 两种格式。由加拿大专业传媒公司和瑞士 Merging Technologi es 共同推出的 Pyramix 4 全中文版已经正式上市。 Pyramix 在功能上的综合优势有:兼容 PCM 与 DSD 两种数字音频格式;基于高 度稳定的 Win2000专业工作平台,可单系统独立使用,也符合多系统网络化建 设;其 DSD 编码格式有利与高级模拟音频系统配合;包括5.1环绕声的 AC-3和 D TS 合成和编码;具有全套的不丢帧同步能力,支持电视、电影以及目前市场上 唯一支持高清晰电视 HDTV Trilevel 的声音同步。再加上所有的 VITC 及 LTC 设置,可锁定于任何视频或音频设备。 Pyramix 4中文版除了它的全新的全中文介面、全面的编辑功能、全实时的专业 效果器组合、全部可自行配置及自动化控制的虚拟调音台之外,Pyramix 4还添 加了: 1. DSD 1bit, 2.8Mhz (SACD) 录音、制作及母版制作功能 2. 支持192kHz 到 384kHz 高采样频率录音、制作及母版制作功能 3. 特别为工作于96kHz 到 384kHz 及 DSD 采样频率而特别设计的实时效果器 4. 不需要转换地直接支持 OMF (Avid) 及 SD2 (Protools)的音频格式 5. 新的效果器包括: · 实时大型、全部可自行配置的 VU 表指示系统 · 实时相位表 (可配置为多声道显示) · 实时录音用通路工具组件 · 为母版制作及环绕声制作使用的实时总线工具组件 · 新式强化的实时全自动化声像移位器,可用于双声道立体声素材及单声道素 材 6. 为多声道音乐录音、编辑及母版制作而强化的工具,包括节拍器轨。按照节 奏及拍子的多种变化而自动调整时间线,按节奏轨自动调整时间线及节拍。 7. 通过最多可支持8块 DSP 卡,要增加 Pyramix 的能力,只要添加 Mykerinos DSP 卡 8. 支持 DIRECTX 插件及 ASIO,可与其它专业音频效果器及应用程序相连 9. 使用不同控制协议,可通过多种控制介面控制多种外部设备

10. 直接支持新式的 Sony DMX-R100 (MADI I/O 接口)调音台 Pyramix 虚拟音频制作系统,是经索尼和飞利浦和公司证的 DSD 系统,也是世 界上唯一的系统,可以有以下 DSD 的功能: 1. 2-24 声道 DSD 录制及还放 2. 为 DSD 的多声道编辑,加上实时淡出/淡入及声音渐变效果。 3. PCM 到 DSD 转换 4. 实时高采样率效果器,包括混响也是基于 DSD 模式的 5. 可制作 DSD 环绕声 6. 为 SACD 完整的 D 及 E 表指示,红皮书标准 7. DSD 特有的高采频样滤波器 在广播影视领域大规模数字化进程中, 我们已感受到音频制作手段的快速更新, 工作效率大大提高,但对数字化后的音频质量,还须有更高的追求,高清晰度 电视和数字电影更需要有与之相适应的高质量音频。飞利浦和索尼公司计划告 别他们的多比特 PCM 格式,全面推广 DSD 格式。这不是一个偶然的,它关系到 数字化音频发展的趋势,因此在数字化规划中,应当逐步将 DSD 技术应用于实 际,真正走在广播影视数字化进程的前列。


赞助商链接

音频采样率及比特率定义

音频采样率及比特率定义_电子/电路_工程科技_专业资料。1、采样率 采样率实际上是指当将声音储存至计算机中,必须经过一个录音转换的过程,转换些什么呢?就 是把声...

AIC3104音频采集芯片使用总结

AIC3104音频采集芯片使用总结 - AIC3104 音频采集芯片使用总结 (仅供内部使用) 版 本 号: V0.1 编制: 审核: 修订记录 日期 2009-3-12 版...

音频采集与处理—山水圣人行解说

第9讲 音频的采集和处理 38页 免费 音频采样 解释 28页 免费 音频信息的采集...音频采集与处理— 课题 音频采集与处理—山水圣人行解说 音频采集与处理 【教学...

浅析音频格式与安卓系统下音频采样率等问题

浅析音频格式与安卓系统下音频采样率等问题 - 浅析:音频格式与安卓系统下音频采样率等问题 想听到优质的“好声音” ,首先要必备的就是好的音源,如果音源不好,再...

音频信息的采集与编辑

音频信息的采集与编辑_其它课程_高中教育_教育专区。《音频信息的采集与编辑》说课稿 海口市第一中学 一、 教材分析 张虹 1、 教材地位及作用: 《音频信息的采集...

3.2 音频信息的采集与编辑

课题名称:3.2 音频信息的采集与编辑 授课年级:高一 教材版本章节:教科版第三...图形、图像、动画、视频等信 息进行采集;能够解释多媒体信息采集的基本工作思想...

音频信息的采集与编辑

陕西省佛坪中学 高一信息技术导学案 编制人:刘辉 时间: 年 月 日 音频信息的采集与编辑班级___ 组别___ 姓名___ 评价___ 【使用说明及学法指导】 1、 自...

音频信息采集与回放系统的实现

音频信息采集与回放系统的实现_信息与通信_工程科技_专业资料。毕业设计论文报告书重庆大学本科学生毕业设计(论文)附件 附件 A:任务书 附件 A: 毕业设计(论文)任务...

音频文件的采集和加工

音频文件的采集和加工_其它课程_高中教育_教育专区。音频文件的采集和加工 高中一年级 必修一教案授课教师:萨迪克江 上课时间: 年 月日 民族团结教育:以“学生增强...

MP各项参数的意义

(如 128Kbps) 首先了解一下:音频采样 数码音频系统是通过将声波波形转换成...心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释 声音的方式” ...