# 声学接入概述

声学接入是指辅助客户完成智能语音终端设备声学的方案设计,对声学性能进行一系列测试评估,并提出修改建议,以确认设备是否能达到科大讯飞远场交互效果,在此基础上提供对应的声学前端处理模块,内部集成科大讯飞的麦克风阵列技术和唤醒技术,实现唤醒、声源定位、降噪、回声消除、自动增益等功能。

声学接入的目的是帮助客户在早期发现设计缺陷,主要包括声学元器件、声学结构设计中的缺陷,确保和语音算法相关的系统硬件指标达到需要的标准,确保产品声学性能达到基本要求,并通过科大讯飞领先的声学前端算法以更好地实现智能语音产品的声学效果。

声学接入的详细流程及服务,请 联系我们。声学接入的主要步骤概括如下:

# 语音技术方案评估

声学接入的第一阶段,是对客户需求进行语音技术方案评估,客户填写项目信息表,根据客户提供的产品定义、降噪需求、使用环境、噪声类型、硬件平台、当前项目进度等信息,确认语音技术的整体方案。第一阶段评估完成后,出具《语音技术方案》 。

# 声学结构评估

声学接入的第二阶段,是对声学结构件进行测试评估,包括电子优化、结构优化和录音优化,如确认麦克风阵列频率响应一致性和麦克风密封性、喇叭的电气参数等。第二阶段评估完成后,会针对客户当前声学结构件给出整改建议并出具《声学结构件声学效果评估报告》。具体检测内容包括:

# 电子优化

  • 器件选择:确认麦克风、ADC和喇叭的电气参数;
  • 电路设计:麦克风和喇叭处的电路设计,线材选取,线长要求;
  • 其他:供电、音量设置、功放设置和参考回采确认;

# 结构优化

  • 麦克风阵列设计:阵列的间距、拾音路径确认;
  • 麦克风开孔:单孔拾音和多孔拾音;
  • 防震措施:针对麦克风和喇叭的防震措施;
  • 防声音传导:线缆和结构的防声音传导处理;

# 录音优化

  • 录音获取
  • 麦克风检测:麦克风一致性检查、麦克风增益调整
  • 参考信号检测:参考信号对齐、参考信号增益调整
  • 元器件检测:功放功率是否合适、结构是否共振、喇叭是否失真、是否存在电流音、是否存在高频泄露
  • 疑难问题:录音驱动是否正常、录音信号、结构是否传声严重

# 声学前端算法集成

声学接入的第三阶段是集成科大讯飞声学前端算法库(简称 VTN) 。声学前段算法库可以利用麦克风阵列的空域滤波特性,在目标说话人方向形成拾音波束,抑制波束之外的噪声和反射声。第三阶段接入完成后,客户的产品将具有声源定位、降噪、回声消除、 语音唤醒等语音前端处理功能,接有 MIC 阵列的产品将具备远场语音交互的能力。当前VTN支持单麦、线性2、4、6和环形6麦等麦克风阵列构型。

使用 VTN 的多麦软核客户,需要具备系统驱动调试、 linux 应用开发,C 语音开发等能力。

算法主要有以下特性:

  • 180\360 度声源定位
  • 语音唤醒
  • 回声消除
  • 降噪(去混响、自动增益)
  • 声纹验证(可选)
  • 性别年龄检测(可选)

声学前端算法库的获取和集成请 联系我们

# 唤醒效果评估

声学接入的第四个阶段是根据客户需要和算法要求,对客户唤醒词选型提供建议和评估。针对选定的唤醒词,视客户需求进行资源定制,包括浅定制和深定制两种定制方式。

# 唤醒词选型

  • 建议使用3-5个中文字,4个字最佳,选择发音开口明显、发音清晰容易分辨的词汇(字数越少,误唤醒率越高)
  • 最好是ABCD结构,每个字有清晰的独立发音的,避免用户快速连读。ABAB结构一个缺点就是容易快速的连读。
  • 没有声母的字只有韵母的字尽量避免,全是元音的也避免,比如 a、o、 e、 ai、ao等。
  • 避免使用敏感词:包含政治,伟人名字等等;
  • 避免使用口语化的词汇,口语词汇日常使用频率很高,容易导致误唤醒;
  • 避免使用多音字,唤醒词的音节覆盖应尽量多,差异大,避免使用叠字,例如你好悠悠,ABCC结构的词,避免连续使用零声母的词;
  • 避免使用带有命令含义的唤醒词,如:下一首,继续播放等。
  • 唤醒词越多,唤醒率越高,误唤醒率也会越高。

# 唤醒词定制

唤醒命令词的生产有两种方式,浅定制和深定制。一般一款智能设备都有一个主唤醒词和若干辅助唤醒词。对于主唤醒词的唤醒率和误唤醒率有苛刻的效果追求,建议通过深定制方式生产;对于辅助唤醒词,效果要求不是特别高,但唤醒词资源会经常变更,建议通过浅定制方式生产。

  • 浅定制

浅定制是指开发者通过平台提供的唤醒词打包工具自行定义打包生成的唤醒词资源。浅定制有资源定制方便、无需定制费用等特点。

  • 深定制

深定制则是对唤醒模型进行深度定制,以满足非常严苛的唤醒效果指标。一般由客户提出唤醒词深定制训练需求,讯飞根据客户需求和使用场景采集一定数量的唤醒音频,并对数据进行仿真加载训练模型。需要收取一定的定制费用,单个唤醒词定制周期在1个半月。如有唤醒词深定制需求请 联系我们

# 整机声学效果评估

声学评估第五阶段,是对产品整机的声学效果进行测试评估,确认产品整机麦克风阵列频率响应一致性和麦克风密封性、识别率、唤醒率、声源定位效果、以及回声消除效果。第三阶段评估完成后,会针对客户当前整机产品给出整改建议并出具《整机声学效果评估报告》。