asr-wav2vec2-commonvoice-frオープンソース音声認識モデル - 言語モデル不要で無料でフランス語音声を認識

ホーム

Asr Wav2vec2 Commonvoice Fr

speechbrainによって開発

CommonVoiceフランス語データセットを基に訓練されたwav2vec 2.0音声認識モデルで、CTC/Attentionアーキテクチャを使用し、言語モデルは不要です。

音声認識

PyTorch

フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #wav2vec2微調整 #言語モデルなし

ダウンロード数 250

リリース時間 : 3/2/2022

モデル概要

これはエンドツーエンドのフランス語自動音声認識システムで、事前学習されたwav2vec 2.0モデルを微調整したもので、フランス語の音声をテキストに変換するタスクに適しています。

モデル特徴

事前学習モデルの微調整

LeBenchmark/wav2vec2-FR-7K-large事前学習モデルを基に微調整を行い、フランス語の認識精度を向上させました。

言語モデル不要

システムは直接CTC貪欲デコーダを使用し、追加の言語モデルのサポートは必要ありません。

効率的な訓練

2台のV100 32GB GPUを使用するだけで訓練を完了でき、リソース消費が比較的低いです。

モデル能力

フランス語音声認識

音声文字起こし

16kHzサンプリングレートの処理

使用事例

音声をテキストに変換

フランス語音声の文字起こし

フランス語の音声内容をテキストに変換します。

テストWER 9.96%、CER 3.19%

🚀 wav2vec 2.0 with CTC/Attention trained on CommonVoice French (No LM)

このリポジトリは、SpeechBrain内でCommonVoice（フランス語）で事前学習されたエンドツーエンドシステムから自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。

モデルの性能は以下の通りです。

リリース	テストCER	テストWER	GPU
24-08-21	3.19	9.96	2xV100 32GB

🚀 クイックスタート

このASRシステムは、2つの異なるが関連するブロックで構成されています。

トークナイザー（ユニグラム）：単語をサブワードユニットに変換し、CommonVoice（FR）のトレーニングトランスクリプション（train.tsv）を使用してトレーニングされます。
音響モデル（wav2vec2.0 + CTC）：事前学習されたwav2vec 2.0モデル（LeBenchmark/wav2vec2-FR-7K-large）が2つのDNNレイヤーと組み合わされ、CommonVoice FRでファインチューニングされます。得られた最終的な音響表現は、CTCグリーディデコーダーに入力されます。

システムは、16kHzでサンプリングされた録音（単チャンネル）でトレーニングされています。コードは、transcribe_fileを呼び出す際に、必要に応じて自動的にオーディオを正規化します（リサンプリング + モノチャンネル選択）。

✨ 主な機能

自動音声認識を行うためのエンドツーエンドシステムを提供します。
事前学習されたwav2vec 2.0モデルを使用し、CommonVoice（フランス語）でファインチューニングされています。
トークナイザー（ユニグラム）を使用して、単語をサブワードユニットに変換します。
CTCグリーディデコーダーを使用して、音響表現をテキストに変換します。

📦 インストール

まず、以下のコマンドでtranformersとSpeechBrainをインストールしてください。

pip install speechbrain transformers

💻 使用例

基本的な使用法

from speechbrain.inference.ASR import EncoderASR

asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-commonvoice-fr", savedir="pretrained_models/asr-wav2vec2-commonvoice-fr")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-commonvoice-fr/example-fr.wav')

高度な使用法

GPUで推論を実行するには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加します。

トレーニング

このモデルはSpeechBrainでトレーニングされています。最初からトレーニングするには、以下の手順に従ってください。

SpeechBrainをクローンします。

git clone https://github.com/speechbrain/speechbrain/

インストールします。

cd speechbrain
pip install -r requirements.txt
pip install -e .

トレーニングを実行します。

cd recipes/CommonVoice/ASR/CTC/
python train_with_wav2vec.py hparams/train_fr_with_wav2vec.yaml --data_folder=your_data_folder

トレーニング結果（モデル、ログなど）はこちらで確認できます。

制限事項

SpeechBrainチームは、このモデルを他のデータセットで使用した場合の性能について、いかなる保証も提供しません。

📚 ドキュメント

SpeechBrainの参照

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }

SpeechBrainについて

SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々なドメインで競争力のある、または最先端の性能が得られます。

ウェブサイト: https://speechbrain.github.io/

GitHub: https://github.com/speechbrain/speechbrain

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

属性	详情
パイプラインタグ	自動音声認識
タグ	CTC、pytorch、speechbrain、Transformer、hf-asr-leaderboard
ライセンス	apache-2.0
データセット	commonvoice
評価指標	wer、cer
モデル名	asr-wav2vec2-commonvoice-fr
タスク名	自動音声認識
データセット名	CommonVoice 6.1 (French)
テストWER	9.96