🚀 SSA-HuBERT-base-60k 自己教師付き音声モデル
この自己教師付き音声モデル(SSA-HuBERT-base-60k)は、HuBERT Baseアーキテクチャ(約95Mパラメータ)に基づいています。このモデルは、サブサハランアフリカで話される21の言語とバリエーションをカバーするために、約60,000時間の音声セグメントで学習されています。
🚀 クイックスタート
本モデルの利用に当たっては、以下のセクションを参考にしてください。
✨ 主な機能
- サブサハランアフリカで話される21の言語とバリエーションに対応した音声表現学習。
- 自己教師付き学習により、大量の未ラベル音声データを活用して学習。
📚 ドキュメント
モデルの説明
この自己教師付き音声モデル(SSA-HuBERT-base-60k)は、HuBERT Baseアーキテクチャ(約95Mパラメータ)に基づいています [1]。約60,000時間の音声セグメントで学習され、サブサハランアフリカで話される21の言語とバリエーションをカバーしています。
事前学習データ
- データセット: 学習データセットは、スタジオ録音(コントロールされた環境、準備された講演)と路上インタビュー(ノイズの多い環境、即興のスピーチ)の両方で構成されています。
- 言語: Bambara (bam), Dyula (dyu), French (fra), Fula (ful), Fulfulde (ffm), Fulfulde (fuh), Gulmancema (gux), Hausa (hau), Kinyarwanda (kin), Kituba (ktu), Lingala (lin), Luba-Lulua (lua), Mossi (mos), Maninkakan (mwk), Sango (sag), Songhai (son), Swahili (swc), Swahili (swh), Tamasheq (taq), Wolof (wol), Zarma (dje)。
ASR微調整
SpeechBrainツールキット (Ravanelli et al., 2021) を使用してモデルを微調整します。FLEURSデータセット [2] を使用して、各言語に対して微調整を行います。事前学習されたモデル(SSA-HuBERT-base-60k)は音声エンコーダとして考えられ、2つの1024線形層とトップにソフトマックス出力を持つ完全な微調整が行われます。
結果
以下の結果は、貪欲モード(言語モデルによる再スコアリングなし)で得られました。文字誤り率 (CER) と単語誤り率 (WER) は、FLEURSデータセットのSSAサブパートの20言語について、以下の表に示されています。
言語 |
CER |
CER (同時微調整) |
WER |
WER (同時微調整) |
アフリカーンス語 |
23.3 |
20.3 |
68.4 |
62.6 |
アムハラ語 |
15.9 |
14.9 |
52.7 |
49.0 |
フラ語 |
21.2 |
17.8 |
61.9 |
56.4 |
ガンダ語 |
11.5 |
10.7 |
52.8 |
50.3 |
ハウサ語 |
10.5 |
9.0 |
32.5 |
29.4 |
イボ語 |
19.7 |
17.2 |
57.5 |
52.9 |
カンバ語 |
16.1 |
15.6 |
53.9 |
53.7 |
リンガラ語 |
8.7 |
6.9 |
24.7 |
20.9 |
ロ語 |
9.9 |
8.2 |
38.9 |
34.9 |
北ソト語 |
13.5 |
11.7 |
43.2 |
38.9 |
ニャンジャ語 |
13.3 |
10.9 |
54.2 |
48.3 |
オロモ語 |
22.8 |
20.1 |
78.1 |
74.8 |
ショナ語 |
11.6 |
8.3 |
50.2 |
39.3 |
ソマリ語 |
21.6 |
19.7 |
64.9 |
60.3 |
スワヒリ語 |
7.1 |
5.5 |
23.8 |
20.3 |
ウンブンドゥ語 |
21.7 |
18.8 |
61.7 |
54.2 |
ウォロフ語 |
19.4 |
17.0 |
55.0 |
50.7 |
コサ語 |
11.9 |
9.9 |
51.6 |
45.9 |
ヨルバ語 |
24.3 |
23.5 |
67.5 |
65.7 |
ズールー語 |
12.2 |
9.6 |
53.4 |
44.9 |
全体平均 |
15.8 |
13.8 |
52.3 |
47.7 |
再現性
論文で述べられているASR実験を再現するためのノートブックを提供しています。SB_ASR_FLEURS_finetuning.ipynb
を参照してください。ASR_FLEURS-swahili_hf.yaml
設定ファイルを使用することで、スワヒリ語でのレシピを実行することができます。
引用
SSA-HuBERT-base-60kモデルを使用する場合は、以下の論文を引用してください。
Caubrière, A., & Gauthier, E. (2024). Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context. In 5th Workshop on African Natural Language Processing (AfricaNLP 2024).
Bibtex引用:
@inproceedings{caubri{\`e}re2024ssaspeechssl,
title={Africa-Centric Self-Supervised Pretraining for Multilingual Speech Representation in a Sub-Saharan Context},
author={Antoine Caubri{\`e}re and Elodie Gauthier},
booktitle={5th Workshop on African Natural Language Processing},
year={2024},
url={https://openreview.net/forum?id=zLOhcft2E7}}
📄 ライセンス
このモデルは、CC-by-NC 4.0の条件で公開されています。
🔧 技術詳細
参考文献
[1] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units. In 2021 IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp.3451–3460, 2021. doi: 10.1109/TASLP.2021.3122291.
[2] Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, and Ankur Bapna. Fleurs: Few-shot learning evaluation of universal representations of speech. In 2022 IEEE Spoken Language Technology Workshop (SLT), pp. 798–805, 2022. doi: 10.1109/SLT54892.2023.10023141.