🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Wolof (No LM)
このリポジトリは、SpeechBrain内でALFFAウォロフ語データセットで事前学習されたエンドツーエンドシステムを使用して自動音声認識を行うために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをお勧めします。
✨ 主な機能
データセットとメトリクス
項目 |
詳細 |
パイプラインタグ |
自動音声認識 |
タグ |
CTC、pytorch、speechbrain、Transformer |
ライセンス |
apache - 2.0 |
データセット |
Dvoice |
メトリクス |
wer、cer |
評価指標
DVoice Release |
検証 CER |
検証 WER |
テスト CER |
テスト WER |
v2.0 |
4.81 |
16.25 |
4.83 |
16.05 |
📦 インストール
SpeechBrainのインストール
まず、以下のコマンドを使用してtransformersとSpeechBrainをインストールしてください。
pip install speechbrain transformers
SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをお勧めします。
💻 使用例
ウォロフ語のオーディオファイルの文字起こし
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-wolof", savedir="pretrained_models/asr-wav2vec2-dvoice-wolof")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-wolof/example_wolof.wav')
GPUでの推論
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加してください。
📚 ドキュメント
パイプラインの説明
この自動音声認識システムは、2つの異なるが関連するブロックで構成されています。
- トークナイザー(ユニグラム):単語をサブワードユニットに変換し、トレーニング用の文字起こしデータで学習されます。
- 音響モデル(wav2vec2.0 + CTC):事前学習されたwav2vec 2.0モデル(facebook/wav2vec2-large-xlsr-53)が2つのDNNレイヤーと組み合わされ、ダリジャ語データセットで微調整されます。得られた最終的な音響表現は、CTC貪欲デコーダーに渡されます。
システムは、16kHzでサンプリングされた録音(単チャンネル)でトレーニングされています。コードは、必要に応じてtranscribe_fileを呼び出す際にオーディオを自動的に正規化します(すなわち、リサンプリング + モノチャンネル選択)。
トレーニング
このモデルはSpeechBrainを使用してトレーニングされています。最初からトレーニングするには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- トレーニングを実行します。
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_wol_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/WOLOF/data/
🔧 技術詳細
- このシステムは、エンドツーエンドの自動音声認識を実現するために、事前学習されたモデルを活用しています。
- 音響モデルとしてwav2vec 2.0を使用し、CTCデコーダーを組み合わせることで、音声信号から文字起こしを行います。
📄 ライセンス
このプロジェクトは、"apache - 2.0"ライセンスの下で提供されています。
❗ 制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。
🔖 参考文献
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
👥 関連情報
DVoiceについて
DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語に関するデータが不足しているため、それぞれに特有の方法でデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。Mozilla Common Voiceに基づくDVoiceプラットフォーム(https://dvoice.ma および https://dvoice.sn)を使用してコミュニティから本物の録音を収集し、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術を使用しています。DVoiceプラットフォームは現在、ダリジャ語(モロッコのアラビア語方言)、ウォロフ語、マンディンゴ語、セレレ語、プラル語、ディオラ語、ソニンケ語など7つの言語を管理しています。
AIOX Labsについて
ラバト、ロンドン、パリに拠点を置くAIOX - Labsは、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトに対応しています。
- グループの成長、プロセスの最適化、または顧客体験の向上に貢献します。
- フィンテックから産業まで、小売や消費財を含む多様なセクターに対応しています。
- 堅牢なアルゴリズムベースと各クライアントの特定のニーズに対する適応性を備えた、ビジネスに即座に利用可能なデータ製品を提供します。
- AIの博士とビジネス専門家で構成された補完的なチームで、堅固な科学的基盤と国際的な出版物を持っています。
ウェブサイト: https://www.aiox-labs.com/
SI2M Laboratoryについて
情報システム、知能システム、数学的モデリング研究室(SI2M)は、国立統計・応用経済研究所(INSEA)の学術研究室です。研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムセキュリティ、数学的モデリングです。
ウェブサイト: SI2M Laboratory
SpeechBrainについて
SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な分野で競争力のあるまたは最先端のパフォーマンスが得られます。
ウェブサイト: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
🙏 謝辞
この研究は、モロッコのラバトにあるCNRSTが提供するHPC - MARWAN(www.marwan.ma/hpc)の計算リソースを通じて支援されました。この機関に深く感謝します。