为还原真实测试环境添砖加瓦
为丰富现有真人语料库,近日,广东省智能家电创新中心启动第一批真人高质量语料录制工作,从录制环境的前期考察、录制过程的严格把关、当天语料的及时溯源到细化某个品牌某类产品,根据产品特点,从性别、年龄段、口音、语速等多个方面进行组合进行深度定制。
搭载在家电上的智能语音模块越来越常见,现阶段消费者眼中家电智能的体现方式语音占了相当大的比重。但是不同方案不同技术的语音模块性能存在差异,影响消费者的日常使用感受,如家电自噪或其他原因导致语音指令的信噪比过低产生唤不醒、误唤醒、误识别的现象。为了对语音模块的性能指标有一个客观了解,这就需要对其进行测试。
在测试中最重要的两个环节是背景噪声和语料,其中语料分为真人语料和合成语料,机器需要从语料中获得指令,理解用户需求,为了获得机器的真实性能水平,语料需要与人说话一样具备多变的语气、语速等,合成语料尽管从MOS值测试指标(包含音质、流畅度、正确性、自然度、分词与停顿、音色六个维度)来看,最好的TTS能够做到4.5分左右(最高5分,普通人为4.7分),TTS仍无法像真人一样拥有其多样化的语音特点,所以真人语料在测试中更能反馈真实性能指标。
TTS合成语音其实是根据某一发音人提供若干段声音数据,模型存储每一个辅音、元音,再组合成短语,这样产生的变化相当有限,远不如真人灵活,若要达到较好的效果,则需要发音人提供大量的声音数据,这样产生的成本会比直接使用真人的测试集更高。真人语料优点在于它每一条短句都会包含着不同的情绪、不同的流畅度、不同的口音,在测试过程中能够更好模拟用户与智能语音设备交互的场景,使测试结果更接近真实数据。
尽管最好的TTS已经非常接近真人语音,但训练一个成熟语音样本的成本仍远高于真人录制,而且TTS技术已经进入深水区,要降低成本还有相当长的一段路要走,真人语料在未来几年仍将是语音性能测试的主力。