AISHELL开源178小时中文普通话数据库 AISHELL-ASR0009-OS1
近日,北京希尔贝壳科技有限公司(AISHELL)在Kaldi平台上开源178小时中文普通话数据库(AISHELL-ASR0009-OS1)。是迄今为止,在Kaldi平台上发布的时长最长、覆盖发音人数最多的,中文普通话数据库;是继清华大学之后,在此平台上发布的第二个中文普通话数据库。
了解Kaldi
Kaldi官网:http://kaldi-asr.org
Kaldi GitHub:https://github.com/kaldi-asr/kaldi
数据开源地址:http://www.openslr.org/33
数据介绍地址:http://www.aishelltech.com/kysjcp
了解希尔贝壳
希尔贝壳,是一家专注人工智能大数据和技术服务,拥有语音识别、语音合成、声纹识别、音频检索技术的科技创新企业。针对家居、车载、机器人等产品做精准数据制作,根据场景化的应用需求做数据的创新和差异化的服务方案。利用机器学习平台,在语音数据评测、辅助转写、数据分析等建立了领先的核心技术体系,并进一步扩大技术和大数据、物联网的融合。
希尔贝壳产品
希尔贝壳开源数据
人工智能民主化,是希尔贝壳成立之初的愿景,也是众多人工智能领域研究者和学习者的共同期待。此次开源178小时中文数据,希尔贝壳本着这个美好朴素的愿景,用精心制作的高质量数据,为人工智能语音场景发展尽一份绵薄之力。作为中国的语音研究者,在Kaldi上奉献出中文的数据资源,分享给全球。旨在使得对中文的语音研究,可以在更高的台阶上起步。
希尔贝壳今后还会不定期开源更多更新的语音数据,训练模型,实验结果及人工智能解决方案。
希尔贝壳中文普通话语音数据库
希尔贝壳中文普通话语音数据库(AISHELL-ASR0009)是为人工智能中文普通话语音识别设计的基础数据库。从语料设计、语料爬取、到数据库设计、录制实施、到文本标注以及词典设计、词典生成,全部由希尔贝壳自主设计,独立完成。此次开源的178小时中文普通话数据(AISHELL-ASR0009-OS1)为此库的一部分,包含400位来自中国不同口音区域的发音人,语料内容涵盖财经、科技、体育、娱乐、时事新闻。匹配Kaldi采样率及比特率为16000Hz,16bit。
如下表所示:
产品编号 | AISHELL-ASR0009-[ZH-CN] | AISHELL-ASR0009-OS1 | |
产品名称 | 中文普通话语音数据库 | 中文普通话开源语音数据库 | |
语料领域 | 11个 | 5个 | |
录制设备 | 高保真麦克风 | 高保真麦克风 | |
语音识别实验
希尔贝壳使用此次开源的178小时数据在Kaldi上进行语音识别实验。
训练集340人,开发集40人,测试集20人。
测试结果如下:
模型 | 测试集性能(CER) |
mono | 33.82 [ 35432 / 104765, 743 ins, 3991 del, 30698 sub ] |
tri1 | 19.39 [ 20310 / 104765, 903 ins, 1452 del, 17955 sub ] |
tri2 | 19.23 [ 20147 / 104765, 910 ins, 1287 del, 17950 sub ] |
tri3a | 17.14 [ 17961 / 104765, 812 ins, 1024 del, 16125 sub ] |
tro4a | 13.64 [ 14294 / 104765, 669 ins, 736 del, 12889 sub ] |
tri5a | 12.23 [ 12809 / 104765, 656 ins, 580 del, 11573 sub ] |
nnet3/tdnn_sp | 8.42 [ 8816 / 104765, 339 ins, 524 del, 7953 sub ] |
chain/tdnn_sp | 7.66 [ 8025 / 104765, 354 ins, 477 del, 7194 sub ] |
更多baseline的实验结果会不断迭代。
(关注我们,微信号:aishelltech)
希尔贝壳,以人工智能民主化为目标
微信公众号
联系我们
商务合作:bd@aishelldata.com
技术服务:tech@aishelldata.com
联系电话:+86-010-80225006
公司地址:
北京市海淀区西北旺东路10号院东区10号楼新兴产业联盟大厦3层316室
开源数据