GB∕T 31070.3-2021 楼寓对讲系统 第3部分_特定应用技术要求.pdf

GB∕T 31070.3-2021 楼寓对讲系统 第3部分_特定应用技术要求.pdf
仅供个人学习
反馈
标准编号:GB∕T 31070.3-2021
文件类型:.pdf
资源大小:24.3 M
标准类别:建筑工业标准
资源ID:302100
下载资源

GB∕T 31070.3-2021 标准规范下载简介

GB∕T 31070.3-2021 楼寓对讲系统 第3部分_特定应用技术要求.pdf

GB/T31070.32021

除特别声明外,声环境功能区场景噪声仿真试验环境应符合: 扬声器数量:5个(其中1个为重低音扬声器); 房间面积:2.5×3m²~3.5×4m; 房间高度:2.20m~2.50m; 房间混响时间:在200Hz~8000Hz的混响时间应≤0.7s,且应≥0.2s; 本底噪声≤30dB(A)

B.2.1扬声器阵列的摆放位置如图B.1所示,

梁柱接头模板施工工艺附录B (规范性附录) 声环境功能区场景噪声仿真试验环境要求

图B.1仿真试验环境中的扬声器阵列摆放位置

试验环境中的扬声器阵列

B.2.2音频测试装置应摆放在仿真环境中心位置,4个扬声器距离中心位置的距离应相同,在0.5m 2.5m之间,如图B.1所示为2m。 B.2.3相邻位置的扬声器距离应一致,按正方形4个顶点位置摆放。 B.2.4扬声器摆放高度应与音频测试装置声音采集点的高度一致,误差应在土15cm之间。 B.2.5重低音扬声器参考图B.1的位置摆放,

2音频测试装置应摆放在仿真环境中心位 m之间,如图B.1所示为2m。 3相邻位置的扬声器距离应一致,按正方形4个顶点位置摆放。 4扬声器摆放高度应与音频测试装置声音采集点的高度一致,误差应在土15cm之间。 5重低音扬声器参考图B.1的位置摆放

B.3.1阵列校准示意图

扬声器阵列校准示意图如图B.2所示。

GB/T 31070.32021

B.3.2扬声器单独校准

图B.2扬声器阵列校准示意图

3.3.2.1应按左前、左后、右前、右后顺序分别对阵列扬声器进行校准。阵列扬声器校准频率范围为 20Hz~20kHz。重低音扬声器的校准频率范围应为:30Hz~120Hz。 3.3.2.2扬声器声压级相对原始噪声源的声压级低6dB 3.3.2.3校准时可通过补偿滤波器补偿扬声器频响,以满足校准要求。补偿滤波器信号幅度应≤9dB 补偿滤波器的频响应满足公式(B.1):

Hro(f)=Hrs(f)

3.3.2.4采用粉伪随机噪声作为校准信号。将校准信号通过高通滤波器(120Hz)输人至阵列扬声器 播放,播放时长应不小于2S,同时用音频测试装置采集播放的噪声。 B.3.2.5扬声器频响在120Hz~20kHz频率范围内应是平坦的,允许容差在土3dB之间。如图B.3 所示。通过公式(B.2)录制噪声和原始噪声的功率密度谱比值:

His(f)= Sis (J) Sn(f)

频程分析,S(f)原始噪声功率谱,SLs(f)录制噪声功率

GB/T31070.3—2021

图B.3阵列扬声器频响曲线允许容差示意图

B.3.3.1完成B.3.2扬声器单独校准后,应再进行扬声器阵列的阵列校准,即4个阵列扬声器同时播 放,方法与B.3.2相同。 B.3.3.2如某个阵列扬声器的单独校准不满足要求,应重新调整补偿滤波器。 B.3.3.3阵列校准的频响应是平坦的,允许容差应在士3dB之间。

B3.4重低音扬声器校准

B.3.4.1重低音扬声器的频率范围宜为30Hz~120Hz。 B.3.4.2 重低音扬声器的声压级应与噪声声压级一致。 B.3.4.3采用粉伪随机噪声作为校准信号,结合低通滤波器(120Hz,18dB/oct)和高通滤波器(50Hz 12dB/oct)进行校准,方法同B.3.2.4。 B.3.4.4重低音扬声器校准的频响应是平坦的,允许容差应在土3dB之间

B.3.4.1重低音扬声器的频率范围宜为30Hz120Hz。 B.3.4.2 重低音扬声器的声压级应与噪声声压级一致。 B.3.4.3采用粉伪随机噪声作为校准信号,结合低通滤波器(120Hz,18dB/oct)和高通滤波器(50Hz 12dB/oct)进行校准,方法同B.3.2.4。 B.3.4.4重低音扬声器校准的频响应是平坦的,允许容差应在土3dB之间

B.3.5扬声器播放延时补偿

B.3.5.1应对阵列扬声器的播放延时进行补偿,保证阵列扬声器对中心区域音频测试装置声场的相关 性。阵列扬声器的最大播放延时应不大于50ms,延时可以为0mS。 B.3.5.2重低音扬声器一般不需要延时补偿

6.1采用粉伪随机噪声作为校准信号,将所有滤波器和延时补偿等设置开启,所有扬声器播放 号,音频测试装置进行噪声采集,然后用1/3倍频程进行分析。 6.2如果在50Hz~20kHz频率范围之内,频率响应曲线的容差在土3dB之间,则完成校准 需按B.3.2~B.3.5步骤重新进行校准

GB/T 31070.32021

附录C (规范性附录) 基于神经网络的语音质量评价(NNSQE)方法

C.1.1基于神经网络的语音质量评价(NNSQE)方法是一种有参的客观语音评价方法。输人信号分为 传输前语音和传输后语音,通过神经网络模型分析处理,输出语音得分。NNSQE方法流程图如图C.I 所示。

图C.1NNSQE方法流程图

在预理研段,分别对传输前培 应的语音特征,然后将提取的特征输入到神 经网络模型。语音特征应包含信噪比(SNR)特行 D 中 D.3.1

C.1.3神经网络模型

神经网络模型是NNSQE方法的核心部分,它将传输前后的语音特征作为输人,输出的结果可以衡 量传输前后的质量差异。NNSQE方法所采用的神经网络模型应至少包含但不限于以下要求:输入网 路层数应至少包含3层(如输人层、中间层、输出层):网络中间层节点数应不少于50个

语音得分是指神经网络模型的输出结果,是可以衡量语音质量好环的得分。该得分用于评价 (传输前语音)经过采集、处理、传输、播放等操作后得到的语音(传输后语音)的质量。得分取值 1分~5分。质量越好,分数越高。通过结合该得分与人工标注得分进行综合分析,也可实 NSQE方法的准确性评价

C.2NNSQE方法的准确性评价

C.2.1准确性衡量参数

NNSQE方法的准确性衡量参数采用平均绝对误差(MeanAbsoluteError,MAE)、均方根 RootMeanSquaredError,RMSE)和相关系数。 按公式(C.1)计算平均绝对误差:

GB/T 31070.32021

按公式(C.2)计算均方根误差

按公式(C.3)计算相关系数:

C.2.2准确性衡量参数提取

C.2.2.1NNSQE方法的准确性征 文提取及评价应按图C.2所示方案进行

C.2.2.1NNSQE方法的准确性衡量参数提取及评价应按图C.2所示方案

R(X,Y)=Cou(X,Y)/V(Var(X)XVar(Y)) ....

表C.1NNSQE方法准确性评价的测试语音要

2.3按图C.2所示流程,采用NNSQE方法对传输前语音和传输后语音进行评分,得到NNSQ 2.4然后对NNSQE得分和人工标注得分进行分析处理,按公式(C.1)、公式(C.2)、公式(C.3)分 出平均绝对误差、均方根误差以及相关系数等准确性衡量参数

GB/T 31070.32021

GB/T31070.32021

D.1NNMOS评分系统

附录D (资料性附录) 种典型的NNSQE方法—NNMOS评分系统

NNMOS评分系统是一种典型的NNSQE方法,其结构如图D.1所示: 网络模型:BILSTM网络; 网络层数:5层(1个输人层、3个隐藏层、1个输出层); 输入层节点数:语音特征维数,包括信噪比、线性预测系数及其参数、基于谱距离评价的特征参 数、基于声学感知的特征参数、基于中文音素的瓶颈特征; 隐藏层节点数:1024个; 5Z1C 输出层节点数:1个。

D.2.1训练数据采集

图D.1NNMOS评分系统结构示意图

NNMOS评分系统的训练数据来源为真实应用场景的录音,具体采集方法如下:选取应用场景,通 过特定应用对讲系统,进行模拟通话,录制通话语音。训练数据集包含了本标准涉及特定应用场景的通 活录音,训练数据录音时长达到上千小时

D.2.2训练数据时长

各场景下的训练数据时长分布如表D.1。

具体各场景下的训练数据时长分布如表D.1,

GB/T 31070.32021

表D.1训练数据各场景数据时长

D.2.3训练数据标注

NNMOS评分系统提取的听觉感知特征参数包括信噪比、线性预测系数及其参数、基于谱距高 的特征参数、基于声学感知的特征参数、基于中文音素的瓶颈特征等5类。

D.3.2信噪比(SNR)

信噪比的计量单位是dB,其计算方法如公式(D.1): SNR=10 X Log10(signal/noise)

GB/T31070.32021

其中signal和noise分别表示语音信号和噪声的功率。为获取测试语音的信噪比信息,首先应对 原语音和测试语音进行对齐,从而获取语音段以及非语音段信息,然后再根据非语音段的信息估算噪声 信号。

D.3.3线性预测系数(LPC)及其参数

D.3.4基于谱距离评价的特征参数

包括语音频谱的均值、方差、最大值、最小值、一阶差分、二阶差分等参数。其中差分特征的计算 公式(D.3)

D.3.5基于声学感知的特征参数

D.3.5.1感知线性预测(PLP)特征

PLP特征参数是全极点模型预测多项式的一组系数,等效于一种LPC系数特征。PLP特征分析 将人耳听觉模型进行工程化处理,应用到频谱分析中。将输入的语音信号经听觉模型处理后所得到的 信号替代传统的LPC分析所用的时域信号,更有利于抗噪语音特征提取。PLP特征的提取流程如 图D.2所示

D.3.5.2梅尔频率倒谱系数(MFCC)特征

图D.2PLP特征提取流程图

MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。梅尔刻度是一种基 对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。梅尔刻度和频率刻度关系如 D.4):

m = 2 595 logio(1 + 70)

当在梅尔刻度上是均匀的话,对应频率的距离将会越来越大,梅尔刻度三角滤波器组如图D

GB/T 31070.32021

图D.3梅尔刻度三角滤波器组

在倒谱分析部分时,首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔刻度滤波器组将 对应频域信号进行切分,最后每个频段对应一个数值,即为倒谱系数。具体的MFCC特征提取过程见 图D.4。

图D.4MFCC特征提取流程图

通过中文语音识别深度神经网络提取的包含中文音素特性的BN特征。利用基于音素状态信息的 是取深瓶颈特征的方法,训练以音素状态为网络输出的,在设计网络结构时为了得到合适维度的底层声 学特征,设置一个节点数目较少的隐层,由于其在结构上像是网络的一个瓶颈,因此将该层形象的称为 瓶颈层。在网络训练完成以后,就在底层输入特征与输出音素状态之间建立了深层的信息提取关系,底 层声学特征中与音素相关的信息被逐层加以抽象,而与音素无关的信息则被逐渐加以抑制。具体的网 络结构如图D.5所示

图D.5中文音素的瓶颈特征提取网络

GB/T31070.32021

D.4NNMOS评分系统算法原理

D.4.1双向长短时记忆(BILSTM)网络建模

考虑到语音的时序特性,采用时序模型双向长短时记忆(BILSTM)网络对语音进行建模,网络整体 结构如图D.1所示。对语音逐顿提取的不同特征拼接成特征向量X,,逐送入BILSTM网络单中,其 中包括一个前向LSTM网络以及一个后向LSTM网络(前两个隐层),然后将前两层隐层输出拼接输 出到第三层隐层,预测每一顿语音的MOS分;最后,输出层对每顿得分进行平均得到最终的语音 MOS分。

D.4.2BILSTM网络结点

BILSTM网络主要由LSTM的门结构组成,门结构如图D.6所示,包括细胞(Cell)、输入门(Input Gate)、输出门(OutputGate)和遗忘门(ForgetGate)。对于前两层隐层,LSTM网络节点的输人X,即 为提取的t时刻的音频特征,输出为隐层特征h,;对于第三层隐层,输入前两层隐层的隐层特征,输出 h,即为t时刻所对应的MOS分。

3NNMOS评分系统原

D.4.3.1特征归一化

图D.6BILSTM门结构示意图

将语音特征每个维度减去该维度的均值并除以标准差,如公式(D.5)。 fea;=(fea;二μ;)/

D.4.3.2前向计算

某隧道施工组织设计方案GB/T 31070.32021

是时刻输出门的输出;h,是1时刻该 节点的输出,为激活函数sigmoid 练的模型参数

D.4.3.3MOS评分

将训练集通过前向计算得到的最终MOS评分,并将输出评分与标注分数进行分析处理,得到 及网络的损失函数

D.4.3.4更新权重

D.5NNMOS评分系统准确性评份

按附录C中图C.2流程图对NNMOS评分系统进行准确性评价,准确性评价结果如图D.7所示。 结果表明,在和训练数据同源的测试数据集合上测试结果平均绝对误差0.18,均方根误差0.28,相关系 数0.97。平均绝对值误差<0.4占97.18%。NNMOS评分系统满足附录C中C.2的准确性评价要求, 适用于本部分

图D.7NNMOS评分系统准确性评价结果

DBT29-209-2010 建筑工程施工质量验收资料管理规程.pdfGB/T31070.32021

©版权声明
相关文章