融声向善语音资源开源计划丨AISHELL-6 系列特殊声学特征语音语料库全面开放,助力人机交互向善发展
为促进语音技术的多元化与包容性发展,推动人工智能真正惠及每一位用户,希尔贝壳秉持“技术向善”的理念,联合西北工业大学、中国科学技术大学、南开大学、昆山杜克大学、新加坡南洋理工大学、佐治亚理工学院、StammerTalk、WeNet等顶尖学术机构与社区组织,正式开放 AISHELL-6系列特殊声学特征语音语料库。
该系列语音库旨在系统性解决非典型语音交互场景下的数据稀缺问题,首期发布包含:
-
AISHELL-6-A:中文口吃数据库
-
AISHELL-6-B:中文构音障碍数据库
-
AISHELL-6-Whisper:大规模耳语与正常发音平行对齐语料库
我们将该语料库系列定位为非典型语音研究领域的“数据强基”,以全球语音技术普惠化为导向,构建高质量开源数据支撑体系。作为该领域关键性数据资源,其可为全球产学研前沿研究提供核心数据支撑,填补低资源语音识别、无障碍人机交互及言语病理相关研究与转化中的数据空白。我们期望以该语料库为纽带,凝聚全球协作力量,打破地域与技术壁垒,共建包容、公平、可持续的全球语音技术研究生态,推动语音技术普惠落地,覆盖各类言语群体需求。
AISHELL-6系列的开发是一项持续推进的开源计划,2026年还将新增发布针对听力障碍、特殊声学特征语音的开源数据集。未来,希尔贝壳将秉持长期开源、优质开源的原则,持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集,为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑,助力破解非典型语音研究中的技术瓶颈,推动语音智能技术向更精准、更普惠、更多元的方向发展。为进一步凝聚全球协作力量,构建可持续发展的语音资源开源生态,希尔贝壳联合中国计算机学会语音对话与听觉专委会、深圳市人工智能学会、中国人工智能产业发展联盟数据标注专委会三大专业机构,共同发起“AISHELL融声向善语音资源开源计划”,依托各方专业优势,推动语音资源的开放共享、规范建设与创新应用:
-
开放协作:欢迎全球高校、科研机构、非营利组织及开发者基于该语料库开展使用、关注与联合研究工作。
-
生态共建:诚挚邀请各领域合作伙伴参与稀缺语音数据的采集、标注、维护与扩充工作。
-
普惠赋能:致力于将技术成果转化为切实助力言语障碍人群的产品与应用,让人工智能的温度通过声音传递到世界每个角落。

作为面向全球的开源项目,我们始终秉持开放初心、深化全球协作,以开放的姿态汇聚全球科研力量、开发者智慧与合作伙伴资源,让语音技术跨越地域、语言与技术的壁垒,突破数据瓶颈与技术难关,赋能全人类共同迈向更普惠、更智能、更具包容性的未来,让每一种声音都能被听见、每一个需求都能被回应。
⏩数据组成
-
对话部分:通过Zoom或腾讯会议等平台进行的在线访谈,旨在能够捕捉在多样化主题下录音人的自然口语。以提前准备的问题列表,根据实际需求灵活引入话题。
-
语控词朗读部分:录音人朗读200个语控词集,包含车载和智能家居等领域。考虑到多样性,每25位录音人更换一批新的语控词,数据库共有600个不重复语控词。
⏩数据说明
录音人在录制期间,鼓励使用口吃技术,故意引入口吃语音,注释文本包含五中口吃类型,如下:
[]:用于标注重复的完整的字、多字或词(如果只是单音重复,请用/r)。
/b: 标注明显的长时间卡壳或短时间卡断(b指block)。
/p: 标住托长音(p指prolongation)。
/r:标注声音重复,比如单个辅音或元音,不足以构成一个字(r指repetition)。
-
开源地址:https://www.aishelltech.com/aishell_6A
-
数据协议:CC BY NC 4.0
-
数据论文:A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection(https://arxiv.org/pdf/2406.07256)
⏩数据赛事
以 AISHELL-6-A 中文口吃数据库为赛事数据,由StammerTalk、希尔贝壳、西工大音频语音与语言处理研究组、新加坡南洋理工大学、昆山杜克大学、中国科学技术大学、南开大学、WeNet开源社区等单位发起的“口吃事件检测和语音识别挑战赛”(StutteringSpeech Challenge)已经作为IEEE Spoken Language Technology Workshop(SLT2024)的旗舰赛事举办。


赛事详情请见:https://stutteringspeech.org/
⏩数据组成
数据库总时长为17h,18630句,包含:
-
正常录音者:25人(13女,12男),共7.6h,10125句;
-
构音障碍者:21人(12女,9男),共8505句。
⏩数据说明
参加的构音障碍者具备以下特征:
-
母语为普通话; -
性别相对均衡,年龄覆盖18~48岁; -
构音的病因多样,包含脑瘫和肝豆状核变性。
录音包含10个唤醒词,每个用不同语速朗读5遍,同时还有355个非唤醒词,包含固定命令词、非固定命令词、家庭指令词以及其他短语。单人不重复文本295条。录音人在安静环境下通过手机录制,麦克风距离约20cm,音频采样率为16kHz。
-
开源地址:https://www.aishelltech.com/AISHELL_6B
-
数据协议:CC BY NC 4.0
⏩数据赛事


⏩数据说明
希尔贝壳联合昆山杜克大学开源项目,语料库在安静的录音棚环境中采集,包含约29.8小时的耳语语音与平行录制的29.5小时正常语音,和同步采集的唇动视频。
该语料库包含 167 名说话人,每位说话人朗读约 10 到 20 分钟不重复的诗歌文本。其中,121 名参与者使用高保真麦克风和同步的 RGB 相机进行录制,其余 46 名参与者仅录制音频信号。音频采用单通道高保真麦克风(Neumann U87)采集(48kHz,16-bit),背景噪声水平低于 20dB。如下图:

我们将数据集按大约 4:1:1 的比例划分为训练集、验证集和测试集,确保各子集在年龄和性别上分布均衡。这三个子集之间没有说话人重叠。另外,该语料库提供句级别的文本标注,耳语音频和正常语音音频路径的对应关系文件,及各说话人信息的文件。

-
开源地址:https://www.aishelltech.com/aishell_6_Whisper -
数据协议:CC BY-NC-SA 4.0
-
数据论文:A Chinese Mandarin Audio-visual Whisper Speech Dataset with Speech Recognition Baselines(https://arxiv.org/abs/2509.23833v1)

图1 模型架构
下图展示了经过处理的音频和视频数据示例,包括正常语音与对应耳语语音的梅尔频谱图,以及音频对应的可视化唇部运动。语音频谱图中观察到的显著差异,尤其是基频缺失的现象,证明了传统语音识别系统在处理耳语语音时具有声学挑战性。


图2 AISHELL6-Whisper测试集实验结果
希尔贝壳在AI数据服务领域拥有多年积累,具备专业的数据工程团队、完善的数据采集与处理能力,以及丰富的数据获取与AI+专家标注实践经验。我们期待与全球更多机构携手合作,赋能音频智能产业发展,共建更普惠、更公平的全球语音技术生态。
📞联系方式
tech@aishelldata.com
📎报名通道
