2022年11月17-18日,2022科大讯飞全球1024开发者大赛的决赛盛会在合肥举行。本次大会揭晓2022iFLYTEK A.I.开发者大赛战果。该大赛开放了108道赛题,吸引了3万多支参赛团队。
华南理工大学音频、语音与视觉处理实验室的研究生黄启晟和曹文昌组队参加了基于声纹的人声分离挑战赛。他们在2022年8月参加初赛,在2022年11月参加决赛。他们从众多参赛队伍中脱颖而出,取得了决赛第3名的成绩。获奖证书如下所示。

赛事介绍
iFLYTEKA.I.开发者大赛是科大讯飞主办的顶尖人工智能竞赛。大赛致力于推动人工智能前沿科学研究及创新成果转化,培育人工智能产业人才,助力人工智能生态建设。
基于声纹的人声分离挑战赛
一、赛事背景
降噪在当前AI领域有着广泛应用。好的降噪能够提高目标说话人语音质量,使得语音听感更清晰舒服。随着AI技术的发展,越来越多的产品拥有了能听会说的能力,使用场景也日益复杂化,人声分离(消除目标说话人之外的人声)是目前降噪的难题之一。
二、赛事任务
基于声纹的人声分离降噪技术需要一定量的人声数据作为支撑。大赛主办方为参赛者提供了40人的训练语音数据(每人2分钟的干净语音)和10人的测试语音数据(每人10秒单人语音加每人10条混合了他人语音的混合语音)。参赛团队基于提供的训练语音数据构建模型,并提取出测试用的多人混合语音中的目标说话人语音。
三、团队作品简介
团队作品的整体架构如下图所示,主要包括两部分:说话人编码器和说话人提取模块。前者从目标说话人参考语音中提取目标说话人特征。后者在目标说话人特征的指导下生成掩膜,掩蔽掉混叠语音频谱中的噪声成分,得到目标说话人语音频谱,最后通过逆傅里叶变换得到目标说话人语音。
