AISHELL开源178小时中文普通话数据库 AISHELL-ASR0009-OS1

近日,北京希尔贝壳科技有限公司(AISHELL)在Kaldi平台上开源178小时中文普通话数据库(AISHELL-ASR0009-OS1)。是迄今为止,在Kaldi平台上发布的时长最长、覆盖发音人数最多的,中文普通话数据库;是继清华大学之后,在此平台上发布的第二个中文普通话数据库。


了解Kaldi

Kaldi官网:http://kaldi-asr.org

Kaldi GitHub:https://github.com/kaldi-asr/kaldi

数据开源地址:http://www.openslr.org/33

数据介绍地址:http://www.aishelltech.com/kysjcp


了解希尔贝壳

希尔贝壳,是一家专注人工智能大数据和技术服务,拥有语音识别、语音合成、声纹识别、音频检索技术的科技创新企业。针对家居、车载、机器人等产品做精准数据制作,根据场景化的应用需求做数据的创新和差异化的服务方案。利用机器学习平台,在语音数据评测、辅助转写、数据分析等建立了领先的核心技术体系,并进一步扩大技术和大数据、物联网的融合。


希尔贝壳产品

智能家居数据方案

智能车载数据方案

智能机器人数据方案

础数据


希尔贝壳开源数据

人工智能民主化,是希尔贝壳成立之初的愿景,也是众多人工智能领域研究者和学习者的共同期待。此次开源178小时中文数据,希尔贝壳本着这个美好朴素的愿景,用精心制作的高质量数据,为人工智能语音场景发展尽一份绵薄之力。作为中国的语音研究者,在Kaldi上奉献出中文的数据资源,分享给全球。旨在使得对中文的语音研究,可以在更高的台阶上起步。

希尔贝壳今后还会不定期开源更多更新的语音数据,训练模型,实验结果及人工智能解决方案。


希尔贝壳中文普通话语音数据库

希尔贝壳中文普通话语音数据库(AISHELL-ASR0009)是为人工智能中文普通话语音识别设计的基础数据库。从语料设计、语料爬取、到数据库设计、录制实施、到文本标注以及词典设计、词典生成,全部由希尔贝壳自主设计,独立完成。此次开源的178小时中文普通话数据(AISHELL-ASR0009-OS1)为此库的一部分,包含400位来自中国不同口音区域的发音人,语料内容涵盖财经、科技、体育、娱乐、时事新闻。匹配Kaldi采样率及比特率为16000Hz,16bit。

如下表所示:

产品编号

AISHELL-ASR0009-[ZH-CN]

AISHELL-ASR0009-OS1


产品名称

中文普通话语音数据库

中文普通话开源语音数据库


语料领域

11个

5个


录制设备
存储格式

高保真麦克风
44100kHz,16bit
安卓手机
16000kHz,16bit
苹果手机
16000kHz,16bit

高保真麦克风
16000kHz,16bit








 

语音识别实验

希尔贝壳使用此次开源的178小时数据在Kaldi上进行语音识别实验。

训练集340人,开发集40人,测试集20人。

测试结果如下:

 

模型

测试集性能(CER)

mono

33.82 [ 35432 /   104765, 743 ins, 3991 del, 30698 sub ] 

tri1

19.39 [ 20310 /   104765, 903 ins, 1452 del, 17955 sub ]

tri2

19.23 [ 20147 /   104765, 910 ins, 1287 del, 17950 sub ] 

tri3a

17.14 [ 17961 / 104765,   812 ins, 1024 del, 16125 sub ] 

tro4a

13.64 [ 14294 /   104765, 669 ins, 736 del, 12889 sub ] 

tri5a

12.23 [ 12809 /   104765, 656 ins, 580 del, 11573 sub ] 

nnet3/tdnn_sp

8.42 [ 8816 /   104765, 339 ins, 524 del, 7953 sub ] 

chain/tdnn_sp

7.66 [ 8025 /   104765, 354 ins, 477 del, 7194 sub ] 

 

更多baseline的实验结果会不断迭代。


(关注我们,微信号:aishelltech)

 


 

 

 


希尔贝壳,以人工智能民主化为目标