CCF先进音频技术大赛正式启动,为推动国内高等院校、科研院所音频相关专业领域学生的培养,支持学生科技创新,选拔优秀人才。本届大赛由中国计算机学会主办,语音对话与听觉专委会承办、语音之家协办、华为终端有限公司独家赞助。
竞赛试题
赛题一:语音修复
1. 赛题描述
语音修复 (Speech Restoration) 是指通过技术手段对受损、失真、含噪的语音信号进行恢复和增强的过程。在现实场景中,语音信号常常会因为复杂的声学环境、录音设备的限制、信道传输的干扰以及不完美的处理算法等综合因素而质量下降,严重影响语音通信的可靠性和智能语音应用的性能。
本赛题旨在鼓励参赛者探索和实现面向真实世界复杂链路的下一代语音修复算法,以显著提升语音信号的质量、可懂度和听感自然度。本任务要求参赛队伍针对给定的、经历了多重损伤的语音,设计并实现一个统一的修复模型,输出最大程度接近原始质量的纯净语音。
本次挑战赛关注的核心问题与挑战如下:
(1)复合型失真的建模与消除
真实通信链路中的语音损伤是多阶段、多维度的。参赛模型需要具备强大的泛化能力,以应对这些交织在一起的失真类型。具体挑战包括:
声学环境损伤: 由高强度、非平稳的背景噪声(如交通、餐厅人声)和复杂的房间混响共同造成的语音模糊和掩蔽。
信号链路损伤: 在采集和传输过程中引入的非线性失真。这主要包括因增益不当或动态范围限制造成的削波(Clipping),以及为了压缩传输而进行带宽限制(Bandwidth Limitation)和有损编码所引入的编码失真(Codec Artifacts),尤其是在低码率(如8-16 kbps)下,声音会变得“发闷”或出现“水中感”。
处理过程引入的次生失真(Processing Artifacts): 这是一个关键挑战。即使是专业的降噪算法,在处理强噪声和混响后,其输出本身也可能残留或引入新的失真(如“音乐噪声”、相位失真等)。本次赛题的输入信号会模拟这一过程,即部分失真是在一次初步处理后才被引入的,要求模型不仅能处理原始噪声,还要能“修复”不完美处理留下的痕迹。
(2)语音保真度与失真抑制的平衡
一个优秀的修复算法,其目标不仅是“去除不好的”,更是“保留好的”。在极致地抑制上述复合型失真的同时,算法必须最大限度地保留原始说话人的音色、情感和语言细节的完整性。参赛者需要精巧地设计网络结构和损失函数,以避免过度处理,防止引入新的算法失真,最终实现听感上的高保真与自然。
(3)低时延处理需求
为了满足实时通信(如在线会议、VoIP通话)等应用场景,算法的计算效率至关重要。本次挑战赛鼓励参赛者在追求效果的同时,关注模型的复杂度。在部分评测环节,我们会对模型的处理时延(要求单帧处理时间小于50ms)进行考量,这对算法的轻量化设计提出了更高要求。
可以使用任何开源数据集,但需在提交系统时明确所使用的数据集。竞赛组织方将发布一定数量的原始(含噪/失真)语音数据作为开发集,供参赛队伍进行算法的初步开发和验证,最终测试用数据与开发数据分布及特性类似。
2. 数据集与基线系统
竞赛方将提供优质数据资源:
- 纯净语音库 (Clean Speech):包含数千小时、多语种、多说话人的高质量无损语音数据。
- 噪声库 (Noise):包含数百种从真实场景录制的非平稳、多样化的噪声数据。
- 房间冲激响应库 (RIR):包含不同房间大小、不同混响时长的房间脉冲响应(Room Impulse Response)数据。
对于数据生成,我们将提供一个可复现的数据合成脚本,同时提供一部分专业降噪算法处理后的音频输出作为失真音频数据。
为帮助参赛者快速验证,竞赛组织方将提供一个官方的开发验证集。该数据集包含经过上述复合型失真(噪声、混响、处理后失真、削波、低码率编码)处理的带标签语音片段。最终用于模型性能排行榜的最终盲测集将对参赛者保持不可见,但其数据分布、失真类型和复杂度与开发验证集保持一致。
竞赛组织方将提供一个基于掩码生成模型的基线模型(类似MaskSR)及其完整的训练和推理代码,鼓励复现我们公布的baseline的结果。
3. 关键交附件
参赛团队可依据此文档进行结果提交。
初赛:
参赛队伍提供可执行的模型文件,在赛事官方指定环境中进行测试。
参赛队伍需提交方案复杂度和可实现性的文档,文档包括模型运行输出的日志文件,数据说明、参数量、复杂度以及是否满足因果性的分析和说明文件。
复赛:
最终方案的技术报告和答辩材料(含算法原理、方案设计、创新性、各个模型对结果的作用分析等)。
4. 评分规则
初赛采用客观评分制,根据参赛队伍提交结果的客观评测指标进行排序。复赛采用客观评分和主观评分相结合的方式,综合评估算法效果、方案创新性、方案复杂度和可实现性。总分构成为:
- . 音频效果
- . 内容创新性
- . 方案复杂度和可实现性
| 一级指标 | 二级指标 | 要求 | 对应分值 |
| 客观打分 | 客观指标(40%) |
综合修复后音频的WAcc, DNSMOS,PESQ进行客观指标打分,三者权重相同。 进行排序,分为4级,评分如下:1级40分,2级32分,3级24分,4级16分 |
40 |
| 参数量(20%) | < 10M: 20分 10M~20M: 16分 20M~50M: 12分 50M~100M: 10分 > 100M: 8分 |
20 |
|
| 主观打分 | 方案创新性(20%) | 在算法原理或者方案实现上有原创性进展:10~20分 在算法原理或者方案实现上基于现有方法有优化 :0~10分 |
20 |
| 听感评估(MOS)(20%) | 对所有提交结果进行排序,分为4级,评分如下:1级20分,2级16分,3级12分,4级8分 | 20 |
降混后的语音到干净语音
赛题二:通用音频分离
1. 赛题描述
通用音频分离是指从混杂声音信号中分离出不同声源的独立信号。传统音频包括单通道分离方法和多通道分离方法,典型算法包括ICA、NMF、Sparse Coding等。近年来,随着深度学习技术的进步,主流方法利用深度神经网络学习音频内在特征和混合规律,实现了更好的分离效果。本任务是对2通道录制的4声源的混合音频进行分离,具体设定如下:
- 声学场景: 办公室环境,目标声源为人声和乐器,共4个声源,声源与麦克风位置在4米以内,声源位置不固定,但同一段录音中声源位置不变。录音中可能包含多人发音,每人发音视为一个独立声源。录音中可能包含背景噪音,背景噪声的强度明显低于主声源。
- 录音设备: 录音设备为一个4麦线性阵列,选择其中2路作为开发和测试数据。2路麦克风之间的距离为2.8厘米。
开发和测试数据集来自麦阵1(M1)和麦阵4(M4)
2. 数据集与基线系统
训练集:参赛队伍可使用任何开源数据集进行训练,但需在提交系统时明确所使用的数据集。
参考数据集如下:
- 人声:AIshell-1(https://www.openslr.org/33/)
- 乐器:MUSIC(https://github.com/roudimit/MUSIC_dataset)
竞赛组织方提供300句仿真混合音频用于客观评价的验证集,以及真实录制的10小时数据作为主观评价的开发集。最终测试数据与这些数据集特性相同。
竞赛组织方将提供一个基线模型及其完整的训练和推理代码,鼓励复现我们公布的baseline的结果。
Baseline: GitHub - asip-cslt/Universal-Sound-Separation-Baseline
3. 关键交附件
参赛团队可依据此文档进行结果提交。
初赛:
参赛队伍提供可执行的模型文件,在赛事官方指定环境中进行测试。
参赛队伍需提交方案复杂度和可实现性的文档,文档包括模型运行输出的日志文件,数据说明、参数量、复杂度以及是否满足因果性的分析和说明文件。
复赛:
最终方案的技术报告和答辩材料(含算法原理、方案设计、创新性、各个模型对结果的作用分析等)。
4. 评分标准
初赛采用客观评分制,以SI-SDR为基本指标。复赛采用客观评分和主观评分相结合的方式,包括:
- . SI-SDR排序层次
- . 主观听觉效果评价(MOS)
- . 方案创新性
- . 模型大小
| 一级指标 | 二级指标 | 要求 | 对应分值 |
|---|---|---|---|
| 客观打分 | SI-SDR(40%) | 分离后音频的SI-SDR打分 根据初赛所有参赛队伍实际提交结果分为4级,1级40分,2级32分,3级24分,4级16分。 |
40 |
| 参数量(20%) | 参数量:<5MB:20分 5MB~10MB:16分 10MB~15MB:12分 15MB~20MB:10分 >20MB:8分 |
20 | |
| 主观打分 | 方案创新性(20%) | 在算法原理或者方案实践上有原创性进展;10~20分 在算法原理或者方案实践上基于现有方法有优化;0~10分 |
20 |
| 听感评估(MOS)(20%) | 根据复赛所有参赛队伍实际提交结果分为4级,1级20分,2级16分,3级12分,4级8分。 | 20 |
2025年CCF先进音频技术竞赛 Website
参赛报名
报名已截止
大赛面向国内高等院校及科研院所在读学生 (含全日制本科生、硕士研究生、博士研究生)
每支队伍参赛队员人数为1-3人,可1位老师指导完成。
赛程安排
2025/06/20 赛题发布,开启报名
2025/06/27 开发集,基线系统发布
2025/08/15 测试集发布,报名截止
2025/08/20 结果提交截止
2025/08/25 初赛结果公布
2025/08/18 结果提交截止
2025/08/23 初赛结果公布
2025/08/30 决赛答辩、颁奖仪式
2025/10/16~17 赛事专场报告会
微信公众号
联系我们
商务合作:bd@aishelldata.com
技术服务:tech@aishelldata.com
联系电话:+86-010-80225006
公司地址:
北京市海淀区海淀大悦信息科技园D5-A501
开源数据
