🚀 SSA - HuBERT - base - 60k 自监督语音模型
本自监督语音模型(即 SSA - HuBERT - base - 60k)旨在解决撒哈拉以南非洲地区多语言语音处理的难题,为该地区的语音识别等任务提供了强大的支持,具有广泛的应用价值。
🚀 快速开始
本模型基于 HuBERT Base 架构(约 9500 万个参数)[1],在近 60000 小时的语音片段上进行训练,覆盖了撒哈拉以南非洲地区使用的 21 种语言及其变体。
✨ 主要特性
- 多语言覆盖:涵盖了撒哈拉以南非洲地区的 21 种语言和变体,如 Bambara、Dyula、French 等。
- 自监督学习:采用自监督学习方式,在大量语音数据上进行预训练,能学习到更通用的语音特征。
📚 详细文档
预训练数据
- 数据集:训练数据集由工作室录音(受控环境、准备好的演讲)和街头采访(嘈杂环境、自发语音)组成。
- 语言:包括 Bambara (bam)、Dyula (dyu)、French (fra)、Fula (ful)、Fulfulde (ffm)、Fulfulde (fuh)、Gulmancema (gux)、Hausa (hau)、Kinyarwanda (kin)、Kituba (ktu)、Lingala (lin)、Luba - Lulua (lua)、Mossi (mos)、Maninkakan (mwk)、Sango (sag)、Songhai (son)、Swahili (swc)、Swahili (swh)、Tamasheq (taq)、Wolof (wol)、Zarma (dje)。
ASR 微调
使用 SpeechBrain 工具包(Ravanelli 等人,2021)对模型进行微调。针对每种语言,使用 FLEURS 数据集 [2] 进行微调。预训练模型(SSA - HuBERT - base - 60k)被视为语音编码器,并通过两个 1024 线性层和顶部的 softmax 输出进行全量微调。
结果
以下结果是在贪心模式(无语言模型重评分)下获得的。下表给出了 FLEURS 数据集 SSA 子部分的 20 种语言的字符错误率(CER)和单词错误率(WER)。
语言 |
CER |
CER(联合微调) |
WER |
WER(联合微调) |
南非荷兰语 |
23.3 |
20.3 |
68.4 |
62.6 |
阿姆哈拉语 |
15.9 |
14.9 |
52.7 |
49.0 |
富拉语 |
21.2 |
17.8 |
61.9 |
56.4 |
干达语 |
11.5 |
10.7 |
52.8 |
50.3 |
豪萨语 |
10.5 |
9.0 |
32.5 |
29.4 |
伊博语 |
19.7 |
17.2 |
57.5 |
52.9 |
坎巴语 |
16.1 |
15.6 |
53.9 |
53.7 |
林加拉语 |
8.7 |
6.9 |
24.7 |
20.9 |
卢奥语 |
9.9 |
8.2 |
38.9 |
34.9 |
北索托语 |
13.5 |
11.7 |
43.2 |
38.9 |
尼扬贾语 |
13.3 |
10.9 |
54.2 |
48.3 |
奥罗莫语 |
22.8 |
20.1 |
78.1 |
74.8 |
绍纳语 |
11.6 |
8.3 |
50.2 |
39.3 |
索马里语 |
21.6 |
19.7 |
64.9 |
60.3 |
斯瓦希里语 |
7.1 |
5.5 |
23.8 |
20.3 |
温本杜语 |
21.7 |
18.8 |
61.7 |
54.2 |
沃洛夫语 |
19.4 |
17.0 |
55.0 |
50.7 |
科萨语 |
11.9 |
9.9 |
51.6 |
45.9 |
约鲁巴语 |
24.3 |
23.5 |
67.5 |
65.7 |
祖鲁语 |
12.2 |
9.6 |
53.4 |
44.9 |
总体平均 |
15.8 |
13.8 |
52.3 |
47.7 |
可复现性
我们提供了一个笔记本,用于复现论文中提到的 ASR 实验。请查看 SB_ASR_FLEURS_finetuning.ipynb
。通过使用 ASR_FLEURS - swahili_hf.yaml
配置文件,您可以在斯瓦希里语上运行该流程。
📄 许可证
本模型根据 CC - by - NC 4.0 许可条件发布。
📚 出版物
本模型在 AfricaNLP 2024 上展示。相关论文可在此处获取:Africa - Centric Self - Supervised Pre - Training for Multilingual Speech Representation in a Sub - Saharan Context
引用
使用 SSA - HuBERT - base - 60k 模型时,请引用我们的论文:
Caubrière, A., & Gauthier, E. (2024). Africa - Centric Self - Supervised Pre - Training for Multilingual Speech Representation in a Sub - Saharan Context. In 5th Workshop on African Natural Language Processing (AfricaNLP 2024).
Bibtex 引用:
@inproceedings{caubri{\`e}re2024ssaspeechssl,
title={Africa-Centric Self-Supervised Pretraining for Multilingual Speech Representation in a Sub-Saharan Context},
author={Antoine Caubri{\`e}re and Elodie Gauthier},
booktitle={5th Workshop on African Natural Language Processing},
year={2024},
url={https://openreview.net/forum?id=zLOhcft2E7}}
🔗 参考文献
[1] Wei - Ning Hsu, Benjamin Bolte, Yao - Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. HuBERT: Self - Supervised Speech Representation Learning by Masked Prediction of Hidden Units. In 2021 IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp.3451–3460, 2021. doi: 10.1109/TASLP.2021.3122291.
[2] Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, and Ankur Bapna. Fleurs: Few - shot learning evaluation of universal representations of speech. In 2022 IEEE Spoken Language Technology Workshop (SLT), pp. 798–805, 2022. doi: 10.1109/SLT54892.2023.10023141.