🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Darija (No LM)
このリポジトリは、SpeechBrain内でDVoiceダリジャ語データセットで事前学習されたエンドツーエンドシステムを使用して、自動音声認識を行うために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをお勧めします。
プロパティ |
詳細 |
モデルタイプ |
自動音声認識 |
タグ |
CTC、pytorch、speechbrain、Transformer |
ライセンス |
apache-2.0 |
データセット |
Dvoice |
評価指標 |
wer、cer |
DVoiceリリース |
検証データのCER |
検証データのWER |
テストデータのCER |
テストデータのWER |
v2.0 |
5.51 |
18.46 |
5.85 |
18.28 |
🚀 クイックスタート
このASRシステムは、2つの異なるが関連するブロックで構成されています。
- 単語をサブワードユニットに変換するトークナイザー(ユニグラム)で、トレーニング用の文字起こしデータで学習されます。
- 音響モデル(wav2vec2.0 + CTC)。事前学習されたwav2vec 2.0モデル(facebook/wav2vec2-large-xlsr-53)が2つのDNN層と組み合わされ、ダリジャ語データセットで微調整されます。得られた最終的な音響表現は、CTC貪欲復号器に与えられます。
システムは、16kHzでサンプリングされた録音(単一チャンネル)で学習されています。コードは、transcribe_fileを呼び出す際に必要に応じて自動的にオーディオを正規化します(すなわち、リサンプリング + モノラルチャンネル選択)。
📦 インストール
まず、以下のコマンドを使用してtransformersとSpeechBrainをインストールしてください。
pip install speechbrain transformers
SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをお勧めします。
💻 使用例
基本的な使用法
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加してください。
📚 ドキュメント
トレーニング
このモデルはSpeechBrainを使用して学習されています。最初から学習するには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 学習を実行します。
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_dar_with_wav2vec.yaml --data_folder=/localscratch/darija/
学習結果(モデル、ログなど)はこちらで確認できます。
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合の性能について、いかなる保証も提供しません。
SpeechBrainの引用
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
DVoiceについて
DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語に関するデータが不足しているため、それぞれの言語に固有の方法を使用してデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。1つは、Mozilla Common Voiceに基づくDVoiceプラットフォーム(https://dvoice.ma および https://dvoice.sn)で、コミュニティからの本物の録音を収集します。もう1つは、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術です。DVoiceプラットフォームは現在、このバージョンに登場するダリジャ語(モロッコのアラビア語方言)を含む7つの言語を管理しています。他の言語には、ウォロフ語、マンディンゴ語、セレール語、プラル語、ディオラ語、およびソニンケ語があります。
AIOX Labsについて
AIOX-Labsは、ラバト、ロンドン、パリに拠点を置き、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトに対応しています。
- グループの成長、プロセスの最適化、または顧客体験の向上に貢献します。
- フィンテックから産業、小売りや消費財を含む多様なセクターに対応しています。
- 堅牢なアルゴリズム基盤と、各クライアントの特定のニーズに合わせた適応性を持つ、ビジネスに即したデータ製品を提供します。
- AIの博士とビジネス専門家から構成される補完的なチームで、堅牢な科学的基盤と国際的な出版物を持っています。
ウェブサイト: https://www.aiox-labs.com/
SI2M Laboratoryについて
情報システム、知能システム、および数学的モデリング研究室(SI2M)は、国立統計・応用経済研究所(INSEA)の学術研究室です。研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムセキュリティ、および数学的モデリングです。
ウェブサイト: SI2M Laboratory
SpeechBrainについて
SpeechBrainは、オープンソースでオールインワンの音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な分野で、競争力のあるまたは最先端の性能が得られます。
ウェブサイト: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
謝辞
この研究は、モロッコのラバトにあるCNRSTが提供するHPC-MARWAN(www.marwan.ma/hpc)の計算資源によって支援されています。この機関に深く感謝します。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。