2020年声纹识别研究与应用学术讨论会成功举办

2020年11月21日，由北京希尔贝壳科技有限公司（AISHELL）与海天瑞声联合赞助的“2020年声纹识别研究与应用学术讨论会”在线上成功举行。此次会议由清华大学、新疆大学、中国计算机学会语音对话与听觉专业组、北京智源人工智能研究院主办，厦门大学协办。会议邀请了国内多位相关领域的演讲嘉宾，共同讨论了声纹识别及相关领域的科研进展。

21日上午9时，清华大学电子系主任汪玉，CCF语音对话与听觉专业组副主任郑方参与了开幕式并进行了开场致辞。汪玉在致辞中表示：很高兴作为主办方参加此次活动，对此次到场的专家和老师们表示热烈的欢迎和衷心的感谢。希望大家在今天的研讨会上可以围绕声纹识别相关领域，来开展各种各样的讨论以及对未来的展望。最后，祝大会圆满成功。

清华大学电子系主任-汪玉

郑方讲到：非常感谢主办方对会议的支持，我首先代表CCF语音对话与听觉专业组对大会召开表示祝贺，希望大家在这次会议能够取得丰硕的成果。在这里也想对各位专家学者提出如下建议：（1）当下基础科研人员的首要目的还是应该着力推动声纹识别的应用发展。（2）相关领域的企业可以从多角度、多赛道协同合作，共同推动声纹识别的发展。（3）希望大家多关注符合政策性法规的技术储备，要合理运用声纹识别的应用，并提高数据安全和隐私保护。希望声纹领域不管是从学术方面还是应用方面在未来都有一个良好的发展，最后预祝大会圆满成功，也祝愿大家都收获满满。

CCF语音对话与听觉专业组副主任-郑方

会议主题分享阶段，清华大学电子工程系副研究员何亮在报告中介绍了声纹识别及衍生技术的近期工作进展，并围绕联合识别、端到端建模和对抗学习等热点话题作了技术分享，对未来声纹识别及衍生技术的发展路线及应用落地的难点进行了探讨。

清华大学电子工程系副研究员-何亮

随后，公安部物证鉴定中心康锦涛在报告中讲到：“虽然说话人自动识别技术的发展日新月异，但面向诉讼的说话人鉴定技术（又称“声纹鉴定”）仍然以专家鉴定为根柢。虽然面临的困难与挑战大致相似，但二者在理论基础、技术路线、结果表示等方面都是不同的，这些差别最根本的原因在于，声纹鉴定的鉴定意见将被法庭作为证据使用，是定罪量刑的依据。”康锦涛表示未来的研究中，听感分析与特征价值量化将是重要的两个方向。

公安部物证鉴定中心-康锦涛

之后，清华大学语音语言中心副研究员王东围绕“Remarks on optimal scores in speaker recognition”作了技术分享，并表示研究人员应该同时注意嵌入的区分和规范化，尽管后者在很大程度上被忽视了。

清华大学语音语言中心副研究员-王东

西北工业大学计算机学院教授谢磊，在报告中介绍了西工大音频语音与语言处理研究组（ASLP@NPU）在复杂场景下的多通道说话人分离与声纹对抗攻击方面的研究进展，以及在基于心理声学模型的声纹对抗攻击方法的研究进展。

西北工业大学计算机学院教授-谢磊

上海交通大学计算机科学与工程系副教授钱彦旻，围绕Adversarial Learning for Robust Speaker Verification作了技术分享。

上海交通大学计算机科学与工程系副教授-钱彦旻

西北工业大学教授张晓雷在报告中介绍了两类训练目标，一类是基于分类的代理损失函数，另一类是面向端到端训练的确认损失函数。并通过对比两类损失函数的性能和复杂度，分析了技术的发展趋势。

西北工业大学教授-张晓雷

昆山杜克大学电子与计算机工程副教授、武汉大学计算机学院兼职教授李明，围绕模块化方法和端到端框架这两个方面，介绍了近一年来在基于深度学习的说话人日志方向上的工作。他在报告中表示，“如今在复杂场景下，比如会议记录、访谈对话等，由于包含说话人数量不确定、多人语音混叠、噪声干扰明显、录音设备信道复杂等难点，使得复杂场景下的说话人日志研究极具挑战性。”

昆山杜克大学电子与计算机工程副教授-李明

中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊，在报告中结合今年CHiME-6评测、JSALT 2020研讨会以及DIHARD-III评测这几个重要事件，与大家共同探讨了说话人分割和语音分离目前的研究进展以及发展趋势。

中国科学技术大学语音及语言信息处理国家工程实验室副教授-杜俊

中国科学院声学研究所研究员、中国科学院大学岗位教授张鹏远，在报告中介绍了近期在说话人聚类和跨域声纹识别方面的研究进展。同时表示在跨域声纹识别方面，提出了一种孪生对抗网络，通过语音的成对输入和领域异同判决，得到领域无关的说话人鉴别性特征，可显著提升跨领域任务中的声纹识别性能。

中国科学院大学岗位教授-张鹏远

厦门大学副教授&天聪智能创始人&全国人机语音通讯会议（NCMMSC）常设委员&公安部安防行业标准(SAC/TC100/SC2)委员洪青阳，在报告中介绍了ASV-Subtools的工程结构、训练框架和相关算法的改进，同时展示实验结果。

厦门大学副教授-洪青阳

来自腾讯的张姗姗在报告中介绍了腾讯在说话人识别反欺骗技术方面的研究与技术进展，包括对特定人和非特定人的虚假语音鉴别，以及与说话人识别等音频相关技术的联合应用。同时对该技术在腾讯业务场景下的应用方式进行了介绍和探讨。

腾讯-张姗姗

最后，厦门大学副教授&硕导李琳在报告中重点分析了在声纹/语种特征提取流程（包括帧级别和段级别）中音素信息所起到的作用效果。针对在语种识别任务中，对比分析不同语种音素识别模型的选择对多任务系统性能的影响进行了详细分析。

厦门大学副教授&硕导-李琳

演讲结束后，嘉宾与老师们共同探讨了声纹识别发展现状以及未来发展趋势。其中AISHELL CEO卜辉讲到“AISHELL在语音识别、声纹识别、语音合成这三个领域都做了相关开源的项目，正在不断实现开源、开放、创新的目标，希望服务全球，更希望全球的中文语音的开发者都能用上国产的中文普通话数据的服务。最后，对本次会议顺利的召开表示祝贺。”