🚀 SSA - HuBERT - base - 60k 自監督語音模型
本自監督語音模型(即 SSA - HuBERT - base - 60k)旨在解決撒哈拉以南非洲地區多語言語音處理的難題,為該地區的語音識別等任務提供了強大的支持,具有廣泛的應用價值。
🚀 快速開始
本模型基於 HuBERT Base 架構(約 9500 萬個參數)[1],在近 60000 小時的語音片段上進行訓練,覆蓋了撒哈拉以南非洲地區使用的 21 種語言及其變體。
✨ 主要特性
- 多語言覆蓋:涵蓋了撒哈拉以南非洲地區的 21 種語言和變體,如 Bambara、Dyula、French 等。
- 自監督學習:採用自監督學習方式,在大量語音數據上進行預訓練,能學習到更通用的語音特徵。
📚 詳細文檔
預訓練數據
- 數據集:訓練數據集由工作室錄音(受控環境、準備好的演講)和街頭採訪(嘈雜環境、自發語音)組成。
- 語言:包括 Bambara (bam)、Dyula (dyu)、French (fra)、Fula (ful)、Fulfulde (ffm)、Fulfulde (fuh)、Gulmancema (gux)、Hausa (hau)、Kinyarwanda (kin)、Kituba (ktu)、Lingala (lin)、Luba - Lulua (lua)、Mossi (mos)、Maninkakan (mwk)、Sango (sag)、Songhai (son)、Swahili (swc)、Swahili (swh)、Tamasheq (taq)、Wolof (wol)、Zarma (dje)。
ASR 微調
使用 SpeechBrain 工具包(Ravanelli 等人,2021)對模型進行微調。針對每種語言,使用 FLEURS 數據集 [2] 進行微調。預訓練模型(SSA - HuBERT - base - 60k)被視為語音編碼器,並通過兩個 1024 線性層和頂部的 softmax 輸出進行全量微調。
結果
以下結果是在貪心模式(無語言模型重評分)下獲得的。下表給出了 FLEURS 數據集 SSA 子部分的 20 種語言的字符錯誤率(CER)和單詞錯誤率(WER)。
語言 |
CER |
CER(聯合微調) |
WER |
WER(聯合微調) |
南非荷蘭語 |
23.3 |
20.3 |
68.4 |
62.6 |
阿姆哈拉語 |
15.9 |
14.9 |
52.7 |
49.0 |
富拉語 |
21.2 |
17.8 |
61.9 |
56.4 |
幹達語 |
11.5 |
10.7 |
52.8 |
50.3 |
豪薩語 |
10.5 |
9.0 |
32.5 |
29.4 |
伊博語 |
19.7 |
17.2 |
57.5 |
52.9 |
坎巴語 |
16.1 |
15.6 |
53.9 |
53.7 |
林加拉語 |
8.7 |
6.9 |
24.7 |
20.9 |
盧奧語 |
9.9 |
8.2 |
38.9 |
34.9 |
北索托語 |
13.5 |
11.7 |
43.2 |
38.9 |
尼揚賈語 |
13.3 |
10.9 |
54.2 |
48.3 |
奧羅莫語 |
22.8 |
20.1 |
78.1 |
74.8 |
紹納語 |
11.6 |
8.3 |
50.2 |
39.3 |
索馬里語 |
21.6 |
19.7 |
64.9 |
60.3 |
斯瓦希里語 |
7.1 |
5.5 |
23.8 |
20.3 |
溫本杜語 |
21.7 |
18.8 |
61.7 |
54.2 |
沃洛夫語 |
19.4 |
17.0 |
55.0 |
50.7 |
科薩語 |
11.9 |
9.9 |
51.6 |
45.9 |
約魯巴語 |
24.3 |
23.5 |
67.5 |
65.7 |
祖魯語 |
12.2 |
9.6 |
53.4 |
44.9 |
總體平均 |
15.8 |
13.8 |
52.3 |
47.7 |
可復現性
我們提供了一個筆記本,用於復現論文中提到的 ASR 實驗。請查看 SB_ASR_FLEURS_finetuning.ipynb
。通過使用 ASR_FLEURS - swahili_hf.yaml
配置文件,您可以在斯瓦希里語上運行該流程。
📄 許可證
本模型根據 CC - by - NC 4.0 許可條件發佈。
📚 出版物
本模型在 AfricaNLP 2024 上展示。相關論文可在此處獲取:Africa - Centric Self - Supervised Pre - Training for Multilingual Speech Representation in a Sub - Saharan Context
引用
使用 SSA - HuBERT - base - 60k 模型時,請引用我們的論文:
Caubrière, A., & Gauthier, E. (2024). Africa - Centric Self - Supervised Pre - Training for Multilingual Speech Representation in a Sub - Saharan Context. In 5th Workshop on African Natural Language Processing (AfricaNLP 2024).
Bibtex 引用:
@inproceedings{caubri{\`e}re2024ssaspeechssl,
title={Africa-Centric Self-Supervised Pretraining for Multilingual Speech Representation in a Sub-Saharan Context},
author={Antoine Caubri{\`e}re and Elodie Gauthier},
booktitle={5th Workshop on African Natural Language Processing},
year={2024},
url={https://openreview.net/forum?id=zLOhcft2E7}}
🔗 參考文獻
[1] Wei - Ning Hsu, Benjamin Bolte, Yao - Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. HuBERT: Self - Supervised Speech Representation Learning by Masked Prediction of Hidden Units. In 2021 IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp.3451–3460, 2021. doi: 10.1109/TASLP.2021.3122291.
[2] Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, and Ankur Bapna. Fleurs: Few - shot learning evaluation of universal representations of speech. In 2022 IEEE Spoken Language Technology Workshop (SLT), pp. 798–805, 2022. doi: 10.1109/SLT54892.2023.10023141.