🚀 wav2vec 2.0 with CTC/Attention trained on CommonVoice French (No LM)
このリポジトリは、SpeechBrain内でCommonVoice(フランス語)で事前学習されたエンドツーエンドシステムから自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。
モデルの性能は以下の通りです。
リリース |
テストCER |
テストWER |
GPU |
24-08-21 |
3.19 |
9.96 |
2xV100 32GB |
🚀 クイックスタート
このASRシステムは、2つの異なるが関連するブロックで構成されています。
- トークナイザー(ユニグラム):単語をサブワードユニットに変換し、CommonVoice(FR)のトレーニングトランスクリプション(train.tsv)を使用してトレーニングされます。
- 音響モデル(wav2vec2.0 + CTC):事前学習されたwav2vec 2.0モデル(LeBenchmark/wav2vec2-FR-7K-large)が2つのDNNレイヤーと組み合わされ、CommonVoice FRでファインチューニングされます。得られた最終的な音響表現は、CTCグリーディデコーダーに入力されます。
システムは、16kHzでサンプリングされた録音(単チャンネル)でトレーニングされています。コードは、transcribe_fileを呼び出す際に、必要に応じて自動的にオーディオを正規化します(リサンプリング + モノチャンネル選択)。
✨ 主な機能
- 自動音声認識を行うためのエンドツーエンドシステムを提供します。
- 事前学習されたwav2vec 2.0モデルを使用し、CommonVoice(フランス語)でファインチューニングされています。
- トークナイザー(ユニグラム)を使用して、単語をサブワードユニットに変換します。
- CTCグリーディデコーダーを使用して、音響表現をテキストに変換します。
📦 インストール
まず、以下のコマンドでtranformersとSpeechBrainをインストールしてください。
pip install speechbrain transformers
💻 使用例
基本的な使用法
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-commonvoice-fr", savedir="pretrained_models/asr-wav2vec2-commonvoice-fr")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-commonvoice-fr/example-fr.wav')
高度な使用法
GPUで推論を実行するには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加します。
トレーニング
このモデルはSpeechBrainでトレーニングされています。最初からトレーニングするには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- トレーニングを実行します。
cd recipes/CommonVoice/ASR/CTC/
python train_with_wav2vec.py hparams/train_fr_with_wav2vec.yaml --data_folder=your_data_folder
トレーニング結果(モデル、ログなど)はこちらで確認できます。
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合の性能について、いかなる保証も提供しません。
📚 ドキュメント
SpeechBrainの参照
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
SpeechBrainについて
SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々なドメインで競争力のある、または最先端の性能が得られます。
ウェブサイト: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
属性 |
详情 |
パイプラインタグ |
自動音声認識 |
タグ |
CTC、pytorch、speechbrain、Transformer、hf-asr-leaderboard |
ライセンス |
apache-2.0 |
データセット |
commonvoice |
評価指標 |
wer、cer |
モデル名 |
asr-wav2vec2-commonvoice-fr |
タスク名 |
自動音声認識 |
データセット名 |
CommonVoice 6.1 (French) |
テストWER |
9.96 |