T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf

T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:4.9 M
标准类别:电力标准
资源ID:387263
下载资源

标准规范下载简介

T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf

电梯智能语音交互系统技术规范

Technicalspecificationofelevatorintelligentspeechinteractionsystem

本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的 规定起草。 本文件由中关村标准化协会技术委员会提出并归口。 本文件起草单位:北京声智科技有限公司、中国科学院声学研究所、联想(北京)有限公司、北京 奇虎科技有限公司、永大电梯设备(中国)有限公司、北京市特种设备检测中心、中关村物联网产业联 盟、苏州市世嘉科技股份有限公司、华夏视清数字技术(江苏)有限公司 本文件主要起草人:冯大航、阮明江、程晓斌、张绪鹏、吴承轩、李波、郭祥、王正伟、张怀宇、 许卫全、卢晓冬。

电梯智能语音交互系统技术规范

DB41/T 1523-2018标准下载本文件规定了电梯智能语音交互系统的术语和定义、系统框架、要求和测试方法。 本文件适用于电梯智能语音交互系统的设计、开发、应用和维护

下列术语和定义适用于本文件

语音降噪noisereductionofspeech 将于扰有效语音信号的背景噪声进行抑制或消

语音降噪noisereductionofspeech 将于扰有效语音信号的背景噪声进行抑制或消

语音交互speechinterac

回声消除acousticechocanceling 通过自适应方法估计回波信号的大小,并在接收信号中减去此估计值以抵消回波

音交互系统可分为如下4.1的前端处理模块和4.2的语音处理模块

前端处理模块包括语音采集模块、语音降噪模块和语音唤醒模块,负责将采集到的语音数据转化为 吾音流,对语音流进行降噪处理,检测语音流中是否包含唤醒词,如果有唤醒词,则将语音流输出作为 吾音处理模块的输人;

语音处理模块包括语音识别模块、语义理解模块、交互决策模块和语音合成模块。语音识别模块将 语音流转化为人类可识别的文本信息直接输出到相关的应用,或转换为计算机可识别的文本信息输出到 语义理解模块.语义理解模块负责对语音识别模块提供的文本信息进行语义解析.交互决策模块负责根 据语义理解模块的语义解析结果做出交互决策,依此向相关应用下达控制指令并获取反馈信息。语音合 成模块负责将交互决策模块或应用提供的计算机可识别文本信息转换为语音输出.语音处理模块中的各 子模块可选择本地、云端或融合实现。 电梯智能语音交互系统的逻辑结果,如图1所示。

电梯智能语音交互系统的逻辑结构

a)语音采集模块获得用户输入的语音将获得的语音输出给语音降噪模块; b)语音降噪模块对接收的语音进行降噪后输出给语音唤醒模块; c)语音唤醒模块对接收到的语音进行检测,确定是否唤醒本电梯智能语音交互系统; d)语音识别模块电梯智能语音交互系统被唤醒后,对降噪后的语音进行识别,得到文本信息,并 向显示屏、第三方系统、语义理解模块输出文本信息; e)语义理解模块对文本信息进行意图识别,得到用户的意图,并向交互决策模块输出用户的意图: f)交互决策模块根据用户的意图,分别向语音合成模块、电梯呼叫系统输出相应的控制指令,电 梯呼叫系统根据控制指令,触发电梯执行相应动作; g)语音合成模块根据控制指令合成对应的语音输出。

电梯智能语音交互系统的控制对象为电梯呼叫系统,通过语音交互控制电梯呼叫系统执行呼叫上 楼 下楼、关门、开门、去某一楼层/楼、取消某一层/楼等。

5.1.2噪声环境的适应性

表2典型噪声环境下的语音输入要求

5.1.3.1采集设备

采集设备采用的传感器为麦克风,传感器的有关参数应符合表3的要求。

表3传声器的参数要求

5.1.4语音输入输出

5.1.4.1语音输入

5.1.4.2语音输出

语音降噪的实现方案应满足以下两部分要求: a语音分离: 获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每 路音频信号中包含多个对象的语音信号; 基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各顿音频信号的幅值矩 阵; 根据各顿音频信号的幅值矩阵、预先确定的各帧音赖信号的解混矩阵,确定对象数量以及每个对象 的各帧语音信号在所述多个预设频率的幅值; 根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频。 上述各帧音频信号的解混矩阵的确定应当满足以下要求: 确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解 混矩阵,确定首帧音频信号的解混矩阵; 确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中 间解混矩阵,确定非首帧音频信号的解混矩阵 b)语音降噪 对a)分离出来的语音音频进行语音降噪,应当满足以下要求: 基于频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值对应的目标巴克带,目标语 音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象; 利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征; 将目标语音信号的音频特征输入降噪网络模型,得到目标语音信号对应的音噪比值矩阵; 基于音噪比值矩阵,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个 预设频率的幅值; 基于预设转换关系,将所述去噪后的目标语音信号在所述多个预设频率的幅值,转换为去噪后的目 标语音信号

将第一标签转换成第二标签;根据语音样本的第二标签以及语音样本的特征训练唤醒模型.第一标签指 的是为语音样本每一帧特征标注的单音素状态,第二标签为指的是三音素状态。 多唤醒词功能的实现应满足以下要求: 获取唤醒语音;逐帧提取唤醒语音的特征;使用多唤醒词识别模型逐帧进行前向计算得到多唤醒模 型输出的后验概率;根据后验概率计算唤醒语音的置信度;当唤醒语音的置信度大于唤醒阈值时,执行 唤醒操作。 上述多唤醒词识别宜采用的训练方法为:提取多个唤醒词的特征;将特征进行对齐得到特征的音素; 根据每个唤醒词的特征的音素生成多个唤醒词所对应的多个三音素;根据多个唤醒词的特征以及多个唤 醒词的三音素训练多唤醒词识别模型。 并以唤醒率评价电梯智能语音交互系统对唤醒操作的正确响应情况,用误唤醒率评价电梯智能语音 交互系统在单位时间内出现的误唤醒频度,其中,唤醒率的计算方法见公式(1),误唤醒率的计算方 法见公式(2)

式中: Psw一唤醒率; 针对表1和表2中的典型应用场景,场景1的唤醒率应不低于95%;场景2的唤醒率应不低于90%;

NFW FW 一 T

式中: frw—误唤醒率; NFw—误唤醒次数; T一时长。 针对表1和表2中的各典型应用场景,误唤醒率不应高于0.2次/h。

JFW 误唤醒率; NFw—误唤醒次数; T一时长。 针对表1和表2中的各典型应用场景,误唤醒率不应高于0.2次/h

电梯智能语音交互系统应支持命令词识别和连续语音识别,并采用命令词识别率来评价系统对命令 词的正确识别情况,以及采用句识别率评价电梯智能语音交互系统对连续语音的正确识别情况。 电梯智能语音交互系统应当符合如下要求:通过获取待识别语音,并对待识别语音进行特征提取, 获得语音特征信息,进而根据目标声学模型以及目标语言模型,确定语音特征信息对应的目标字符序列, 即句文本内容。目标语言模型包括第一语言模型、第二语言模型,第一语言模型通过电梯场景的命令词 训练文本进行语言模型训练得到,第二语言模型通过第一文本训练集进行语言模型训练得到,第一文本 指的是用于语言模型训练的通用文本训练集

式中: Acc一一命令词识别率; T一一为替换字符个数; D一为删除字符个数; R一为插人字符个数; N 一为字符总个数。 本命令词识别率在场景1下应在95%以上,在场景2下应在90%以上。 句识别率本计算方法见式(4),句识别率评价标准见表4。

施工组织设计(园林绿化工程投标)式中: PsR 句识别率

nSRx100% PsR NsL

表4句识别率评价标准

针对表1和表2中的典型应用场景,句识别率应符合下列要求 a) 场景1的句识别率不应低于85%; b)场景2的句识别率不应低于75%

电梯智能语音交互系统在在线条件下应支持意图识别,即对经语音识别得到语句进行意图识别,得 到语句的意图以及意图类型;基于得到的意图类型,对语句进行槽位提取,得到意图的槽位信息;根据 意图以及槽位信息,控制电梯执行相应的功能;意图类型包括第一意图类型、第二意图类型和目标意图 类型,意图识别后,可根据意图类型的不同,选择不同的槽位提取方式对语句进行槽位提取,第一意图 类型用于指示语句为对电梯所需执行功能的直接指令,第二意图类型用于指示语句需分析以确定电梯所 需执行功能,目标意图类型用于指示语句为用户间的对话信息。

5.1.9.1响应类型

特定语音交互任务指的是电梯智能语音交互系统接收乘员的语音输人后,触发电梯呼叫系统控制电 梯相关部件做出与语音输人对应的响应类型。 响应类型包括: a)电梯智能语音交互系统接收电梯乘员输入的语音指令后,电梯智能语音交互系统触发电梯呼叫 系统,由电梯呼叫系统触发电梯做出相应的动作响应,电梯动作响应包括:电梯的硬件按钮高亮、电梯 门的开/关、去往目标楼层的执行/取消; b)电梯智能语音交互系统接收电梯乘员输人的语音指令后,触发扬声器输出合成语音响应,合成 语音响应指的是扬声器输出合成语音信息; c)电梯智能语音交互系统接收电梯乘员输人的语音指令后,触发显示屏输出屏幕显示响应,屏幕 显示响应指的是屏幕显示文本或者显示图像等信息

芜湖市某综合楼装修工程施工组织设计方案5.1.9.2响应时间

对于单次特定语音交互任务,通过单次的响应时间来评价电梯智能语音交互系统对单次特定诺 任务的响应速度,其计算方式见公式(5)。

©版权声明
相关文章