近日,在国际语音顶级会议INTERSPEECH 2022首届Spoofing-Aware Speaker Verification(SASV)挑战赛中,由昆山杜克大学与OPPO小布助手团队联合组建的队伍“DKU-OPPO”,在与全球23支顶尖队伍同台竞技鏖战后脱颖而出,荣获大赛亚军。
INTERSPEECH是由国际语音通讯协会创办的顶级旗舰国际会议,是全球最大的综合性语音信号处理领域的科技盛会之一。作为INTERSPEECH 2022的特别会议,首届SASV由韩国、法国、芬兰等国家多个研究机构共同组织,旨在促进同时集成声纹识别和伪造音检测两项技术的联合系统的进步。
领跑国际竞赛,开启声纹识别和伪造音检测联合系统新征程
在声纹识别领域,大多数研究机构要么关注声纹识别技术,要么关注伪造音检测技术,很少同时关注两个技术,并在技术层面进行联合优化。随着声纹识别技术和伪造音检测技术的发展和进步,同时集成两项技术的联合系统亟需提上议程。
针对上述挑战,DKU-OPPO凭借在实际应用场景中获得的丰富经验,对参赛系统进行了级联设计Cascade-ASV-CM,针对声纹识别模型和伪造音检测模型分别进行联合优化,在得分层面进行逻辑融合。
在激烈角逐下,DKU-OPPO最终以各项领先的成绩夺得亚军,并显著领先于第三名团队,为同时集成声纹识别和伪造音检测两项技术的联合系统提供了优异的解决方案。
合力突破声纹识别瓶颈,推动行业技术发展
声纹识别也称为说话人识别,是从一段语音中自动识别出说话人身份的一门技术。按照任务不同,可以分为说话人确认和说话人辨识。说话人确认(Automatic Speaker Verification),即判别出一段语音是否为某个人所讲;说话人辨认(Automatic Speaker Recognition),即识别出一段语音具体为哪个人所讲。
近些年,随着深度学习的快速发展,声纹识别的性能得到了显著提升。然而,在实际场景中,声纹识别仍面临着诸多挑战,在技术攻克与落地应用中并非易事。例如声纹欺诈,即利用技术手段达到让伪造目标说话人的声音欺骗并通过声纹识别系统的目的。
声纹欺诈手段主要包括三点:1、利用特定人语音合成技术生成被攻击者高质量语音;2、利用变声技术模拟并生成被攻击者的声音;3、录音重放,即录制被攻击者的声音,并使用录音设备进行重放。
在此背景下,相关学者于2015年开始组办ASVSpoof比赛,以吸引更多的人加入伪造音检测技术研究的队伍。但正如前文所提到的,同时集成声纹识别和伪造音检测两项技术的联合系统在需求日益增长的声纹识别领域仍是一片空白。
首届SASV挑战赛的成功落地,不仅创造性地为同时集成声纹识别和伪造音检测两项技术的联合系统提供了解决方案,还进一步推进了声纹识别技术的安全性提升。在突破声纹识别技术瓶颈的同时,让更安全可信的服务成为可能。
持续开放创新,共建人工智能技术生态
在本届SASV挑战赛上,与昆山杜克大学联合组队并获得亚军,是小布助手持续开放创新的一个缩影。近年来,小布助手积极扩展合作生态,以产学研布局带动跨界融合创新,与昆山杜克大学、清华大学、北京智源人工智能研究院等高校及机构组织建立紧密的产学研合作,并在行业权威的中文语言理解测评基准(CLUE)等国际竞赛中取得了亮眼的成绩。
伴随着5G、人工智能、云计算、物联网等前沿技术的发展,小布助手将持续深耕技术领域,积极参与行业生态建设,以关键成果在实际业务场景中的应用落地推动技术创新,共建人工智能新时代。
免责声明:本文来源于网络,仅代表作者本人观点,与手机之家无关。手机之家对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。