AISHELL-5 全球首套智能驾舱中文语音交互数据集开源

随着汽车成为人们日常生活中不可或缺的一部分,而驾驶舱中传统的触摸交互方式容易分散驾驶员的注意力,存在安全风险,因此,车内基于语音的交互方式得到重视。与通常家庭或会议场景中的语音识别系统不同,驾驶场景中的系统面临更加独特的挑战,缺乏大规模的公共真实车内数据一直是该领域发展的主要障碍。AISHELL-5是首个开源的真实车载多通道、多说话人中文自动语音识别(ASR)高质量数据集。AISHELL-5的开源加速了智能驾舱内语音交互的相关技术研究,并且希尔贝壳联合西工大音频语音与语言处理研究组(ASLP@NPU)理想汽车发布的AISHELL-5论文成功入INTERSPEECH2025国际会议以下是AISHELL-5数据集的相关介绍。

 

 
 

数据地址https://www.aishelltech.com/AISHELL_5

 

文地址:https://arxiv.org/pdf/2505.23036

GitHub:https://github.com/DaiYvhang/AISHELL-5

 

数据说明

AISHELL-5 共计893.7小时,单通道145.25小时。邀请165名录音人,在真实车内,涉及60+车载场景下录制。录音内容包含对话(706.59H)和噪声(187.11H)两类。拾音点位共计5个:近讲为头戴麦克风(采样率:16kHz,16bit,数据量:215.63H),远讲为驾舱内麦克风(采样率:16kHz,16bit,数据量:490.96H,拾音位:4个音位)。噪声采集由驾舱内麦克风(采样率:16kHz,16bit,数据量:187.11H,拾音位:4个音位)录制。

录制场景示意图:

录制环境设计信息:

 

实验数据分配如下:

 

 

试验说明

我们提供了基于该数据集构建的一套开源基线系统。该系统包括一个语音前端模型,利用语音源分离技术从远场信号中提取出每位说话人的清晰语音,以及一个语音识别模块,用于准确转写每位说话人的语音内容。

 

系统实验结果:

 

实验结果展示了多种主流ASR 模型在 AISHELL-5 数据集上面临的挑战。AISHELL-5 数据的开源能够推动智驾领域复杂驾舱场景下的语音技术研究

希尔贝壳技术团队均来自人工智能、大模型、数据科学领域,在音视频高质量数据集的建设已经达到了国际领先水平,部分数据集已成为产学研的标准。拥有50多项知识产权,希尔贝壳与清华大学、中国科学技术大学、西北工业大学、南开大学等重点实验室共同建立科研平台,并联合发表多篇顶级论文。希尔贝壳是国家高新技术企业、中关村高新技术企业、北京市专精特新企业、北京市新技术新产品企业。公司获得ISO 27701、ISO 27001、ISO 90001等信息安全管理、隐私信息管理、质量管理的认证。

希尔贝壳深耕AI数据服务领域多年,拥有专业的数据工程团队和强大的数据采集、处理能力,在数据采集和AI+专家标注方面具备丰富的实践经验。希尔贝壳服务了全球顶级AI科技公司与科研机构1000余家,建立了良好的合作生态,不断扩大合作关系。公司致力于人工智能民主化,以数据驱动人工智能技术落地。

希尔贝壳,以人工智能民主化为目标

    • 客服

    • 电话:010-80225006
    • 邮箱:bd@aishelldata.com
    • 服务时间

    • 周一至周五 9:00-18:00
    • 微信二维码