为还原真实测试环境添砖加瓦

2022年8月31日2022年9月14日
by ravio

为丰富现有真人语料库，近日，广东省智能家电创新中心启动第一批真人高质量语料录制工作，从录制环境的前期考察、录制过程的严格把关、当天语料的及时溯源到细化某个品牌某类产品，根据产品特点，从性别、年龄段、口音、语速等多个方面进行组合进行深度定制。

搭载在家电上的智能语音模块越来越常见，现阶段消费者眼中家电智能的体现方式语音占了相当大的比重。但是不同方案不同技术的语音模块性能存在差异，影响消费者的日常使用感受，如家电自噪或其他原因导致语音指令的信噪比过低产生唤不醒、误唤醒、误识别的现象。为了对语音模块的性能指标有一个客观了解，这就需要对其进行测试。

在测试中最重要的两个环节是背景噪声和语料，其中语料分为真人语料和合成语料，机器需要从语料中获得指令，理解用户需求，为了获得机器的真实性能水平，语料需要与人说话一样具备多变的语气、语速等，合成语料尽管从MOS值测试指标（包含音质、流畅度、正确性、自然度、分词与停顿、音色六个维度）来看，最好的TTS能够做到4.5分左右（最高5分，普通人为4.7分），TTS仍无法像真人一样拥有其多样化的语音特点，所以真人语料在测试中更能反馈真实性能指标。

TTS合成语音其实是根据某一发音人提供若干段声音数据，模型存储每一个辅音、元音，再组合成短语，这样产生的变化相当有限，远不如真人灵活，若要达到较好的效果，则需要发音人提供大量的声音数据，这样产生的成本会比直接使用真人的测试集更高。真人语料优点在于它每一条短句都会包含着不同的情绪、不同的流畅度、不同的口音，在测试过程中能够更好模拟用户与智能语音设备交互的场景，使测试结果更接近真实数据。