ASR - Wav2Vec2 - Dvoice - ダリジャオープンソースモデル - モロッコアラビア語方言の音声認識をサポート

ホーム

Asr Wav2vec2 Dvoice Darija

speechbrainによって開発

これはモロッコアラビア語方言（Darija）に対する自動音声認識モデルで、wav2vec 2.0アーキテクチャに基づき、DVoiceデータセットで微調整して訓練されたものです。

音声認識

PyTorch

その他オープンソースライセンス:Apache-2.0 #モロッコ方言識別 #低リソース言語ASR #wav2vec2微調整

ダウンロード数 120

リリース時間 : 6/9/2022

モデル概要

このモデルはエンドツーエンドのDarija音声文字起こし機能を提供し、事前学習されたwav2vec 2.0モデルを基礎として、DNN層を追加してDarijaデータセットで微調整し、最終的にCTC貪欲デコーダーによりテキスト結果を出力します。

モデル特徴

低リソース言語サポート

リソースが少ないDarija方言に特化して最適化されており、転移学習技術によりデータ不足の問題を解決します。

コミュニティ主導のデータ

DVoiceプラットフォームで収集された実際のコミュニティの録音データに基づいて訓練されており、実際の言語使用シーンを反映しています。

効率的な微調整アーキテクチャ

事前学習されたwav2vec2-large-xlsr-53モデルに、たった2層のDNNを追加して微調整することで、効率的な訓練を実現します。

モデル能力

モロッコアラビア語方言音声認識

16kHzモノラルオーディオ処理

自動オーディオ標準化（リサンプリング/モノラル選択）

使用事例

音声文字起こし

方言メディアコンテンツの文字起こし

モロッコ方言のポッドキャスト、ビデオなどのコンテンツを自動的に文字に変換します。

テストセットWER 18.28%、CER 5.85%

音声アシスタント

方言音声指令認識

モロッコ地域のユーザーに方言での対話ができる音声アシスタントを提供します。

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Darija (No LM)

このリポジトリは、SpeechBrain内でDVoiceダリジャ語データセットで事前学習されたエンドツーエンドシステムを使用して、自動音声認識を行うために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをお勧めします。

プロパティ	詳細
モデルタイプ	自動音声認識
タグ	CTC、pytorch、speechbrain、Transformer
ライセンス	apache-2.0
データセット	Dvoice
評価指標	wer、cer

DVoiceリリース	検証データのCER	検証データのWER	テストデータのCER	テストデータのWER
v2.0	5.51	18.46	5.85	18.28

🚀 クイックスタート

このASRシステムは、2つの異なるが関連するブロックで構成されています。

単語をサブワードユニットに変換するトークナイザー（ユニグラム）で、トレーニング用の文字起こしデータで学習されます。
音響モデル（wav2vec2.0 + CTC）。事前学習されたwav2vec 2.0モデル（facebook/wav2vec2-large-xlsr-53）が2つのDNN層と組み合わされ、ダリジャ語データセットで微調整されます。得られた最終的な音響表現は、CTC貪欲復号器に与えられます。システムは、16kHzでサンプリングされた録音（単一チャンネル）で学習されています。コードは、transcribe_fileを呼び出す際に必要に応じて自動的にオーディオを正規化します（すなわち、リサンプリング + モノラルチャンネル選択）。

📦 インストール

まず、以下のコマンドを使用してtransformersとSpeechBrainをインストールしてください。

pip install speechbrain transformers

SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをお勧めします。

💻 使用例

基本的な使用法

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加してください。

📚 ドキュメント

トレーニング

このモデルはSpeechBrainを使用して学習されています。最初から学習するには、以下の手順に従ってください。

SpeechBrainをクローンします。

git clone https://github.com/speechbrain/speechbrain/

インストールします。

cd speechbrain
pip install -r requirements.txt
pip install -e .

学習を実行します。

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_dar_with_wav2vec.yaml --data_folder=/localscratch/darija/

学習結果（モデル、ログなど）はこちらで確認できます。

制限事項

SpeechBrainチームは、このモデルを他のデータセットで使用した場合の性能について、いかなる保証も提供しません。

SpeechBrainの引用

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }

DVoiceについて

DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語に関するデータが不足しているため、それぞれの言語に固有の方法を使用してデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。1つは、Mozilla Common Voiceに基づくDVoiceプラットフォーム（https://dvoice.ma および https://dvoice.sn）で、コミュニティからの本物の録音を収集します。もう1つは、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術です。DVoiceプラットフォームは現在、このバージョンに登場するダリジャ語（モロッコのアラビア語方言）を含む7つの言語を管理しています。他の言語には、ウォロフ語、マンディンゴ語、セレール語、プラル語、ディオラ語、およびソニンケ語があります。

AIOX Labsについて

AIOX-Labsは、ラバト、ロンドン、パリに拠点を置き、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトに対応しています。

グループの成長、プロセスの最適化、または顧客体験の向上に貢献します。
フィンテックから産業、小売りや消費財を含む多様なセクターに対応しています。
堅牢なアルゴリズム基盤と、各クライアントの特定のニーズに合わせた適応性を持つ、ビジネスに即したデータ製品を提供します。
AIの博士とビジネス専門家から構成される補完的なチームで、堅牢な科学的基盤と国際的な出版物を持っています。ウェブサイト: https://www.aiox-labs.com/

SI2M Laboratoryについて

情報システム、知能システム、および数学的モデリング研究室（SI2M）は、国立統計・応用経済研究所（INSEA）の学術研究室です。研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムセキュリティ、および数学的モデリングです。ウェブサイト: SI2M Laboratory

SpeechBrainについて

SpeechBrainは、オープンソースでオールインワンの音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な分野で、競争力のあるまたは最先端の性能が得られます。ウェブサイト: https://speechbrain.github.io/ GitHub: https://github.com/speechbrain/speechbrain