ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,是IEEE下语音方向最具代表性、最高荣誉的会议,在国际上享有盛誉并具有广泛的学术影响力。今年是ICASSP的第47届会议,会议主题为“以人为本的信号处理”。本届大会同时在线上和线下(新加坡)举办。“云知声-上师大自然人机交互”联合实验室提出的语音分离-DPCCN和目标语音分离-sDPCCN技术论文被收录且在线上会议平台展示了相关算法细节,代表了云知声在语音信号处理领域的底层技术的创新,与国际学术界对云知声技术创新的认可。此外,这已经不是云知声在语音信号处理方向第一次获得国际认可,早在2020年已经收获ICASSP DNS国际评测第四,2021获得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多项荣誉。此次被录取的论文主要利用语音分离的技术突破来处理鸡尾酒会问题,涉及语音识别、降噪等诸多方向。
鸡尾酒会问题:在复杂场景下,人类可以轻易地关注于自身感兴趣的语音,但是对于机器来说却显得尤为困难,这种现象被称为鸡尾酒会问题。
在本次论文中,联合实验室团队从时频域的角度出发,提出了一种基于U-Net结构的语音分离模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基础上,设计了一个特殊的目标说话人声纹编码模块来对目标说话人的注册语音进行声纹信息提取,从而监督DPCCN分离网络提取出相应的目标说话人语音sDPCCN。在业界公开带噪带混响的LibriSpeech数据集合上,实验结果显示所提出的DPCCN方法显著超过了目前业界主流技术。另外,目前大多数主流的目标语音提取系统都是受监督学习驱动的,它们对训练数据有着很强的依赖。由于源域和目标域的声学特性之间存在着一定程度的不匹配,域内和跨域条件下的目标语音提取之间通常有着巨大的性能差异。因此,论文还提出了一种Mixture-Remix机制(Fig2所示)来提高跨域条件下的目标语音提取性能。在Libri2Mix和Aishell2Mix构建的英文-中文跨域目标语音分离任务上,文中提出的Mixture-Remix机制不管在sDPCCN还是经典的TD-SpeakerBeam(TSB)结构上都体现出了显著效果。在此之前,云知声就已经在语音识别,降噪领域有了诸多建树,并将相关技术在多个领域、多个项目、多个产品中落地。比如云知声的远场阵列处理技术已被广泛应用于多种智能家电,(如智能音箱、智能空调、智能抽油烟机);智慧交通设备(如8mic大阵列地铁问询机、购票机),三代共6款专用AI语音芯片(截至目前,已达到千万级出货)等产品。其中智慧交通的相关产品与设备已在上海、广州、徐州、深圳、合肥、三亚、苏州、昆明、无锡、南宁等全国10余个城市、20余条地铁线路的200余个地铁站落地,其中包括云知声倾力打造的全国首个智慧轨交标杆示范站——广州地铁广州塔(“小蛮腰”)站,以及无人地铁示范线路——深圳地铁20号线等。
另外,针对低功耗可穿戴设备,云知声基于深度学习技术构建了近场降噪技术,语音质量客观指标SNR、PESQ、STOI已处于国际领先水平,在目前大火的智能AR工业眼镜,蓝牙智能眼镜等产品中都有它的身影。
未来,云知声将不断探索科技新高度,促进AI系统的“智力”提升,让后者更好地应用于千行百业,为用户缔造更加出色的智能体验。