🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Darija (No LM)
このリポジトリは、SpeechBrain内でDVoice Darijaデータセットで事前学習されたエンドツーエンドシステムを使用して、自動音声認識を行うために必要なすべてのツールを提供します。より良い体験のために、SpeechBrainについてもっと学ぶことをおすすめします。
DVoiceリリース |
検証用CER |
検証用WER |
テスト用CER |
テスト用WER |
v2.0 |
5.51 |
18.46 |
5.85 |
18.28 |
🚀 クイックスタート
このASRシステムは、2つの異なるが関連するブロックで構成されています。
- 単語をサブワードユニットに変換するトークナイザー(ユニグラム)で、トレーニング用の文字起こしデータで学習されます。
- 音響モデル(wav2vec2.0 + CTC)。事前学習されたwav2vec 2.0モデル(facebook/wav2vec2-large-xlsr-53)が2つのDNNレイヤーと組み合わされ、Darijaデータセットで微調整されます。得られた最終的な音響表現は、CTC貪欲デコーダーに渡されます。
このシステムは、16kHzでサンプリングされた録音(単チャンネル)で学習されています。コードは、transcribe_fileを呼び出す際に必要に応じて自動的にオーディオを正規化します(すなわち、リサンプリング + モノラルチャンネル選択)。
✨ 主な機能
- 自動音声認識を行うためのエンドツーエンドシステムを提供します。
- 事前学習されたwav2vec 2.0モデルを使用して、Darijaデータセットで微調整された音響モデルを提供します。
- コードは自動的にオーディオを正規化します。
📦 インストール
まず、以下のコマンドでtranformersとSpeechBrainをインストールしてください。
pip install speechbrain transformers
SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをおすすめします。
💻 使用例
基本的な使用法
from speechbrain.pretrained import EncoderASR
asr_model = EncoderASR.from_hparams(source="aioxlabs/dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-dar")
asr_model.transcribe_file('./the_path_to_your_audio_file')
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加してください。
📚 ドキュメント
モデルを最初から学習するには、こちらのGitHubチュートリアルを参照してください。
🔧 技術詳細
このASRシステムは、トークナイザー(ユニグラム)と音響モデル(wav2vec2.0 + CTC)の2つのブロックで構成されています。トークナイザーは、単語をサブワードユニットに変換し、トレーニング用の文字起こしデータで学習されます。音響モデルは、事前学習されたwav2vec 2.0モデル(facebook/wav2vec2-large-xlsr-53)と2つのDNNレイヤーを組み合わせ、Darijaデータセットで微調整されます。最終的な音響表現は、CTC貪欲デコーダーに渡されます。システムは、16kHzでサンプリングされた録音(単チャンネル)で学習されており、コードは必要に応じて自動的にオーディオを正規化します。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。
SpeechBrainの引用
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
DVoiceについて
DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語に関するデータが不足しているため、それぞれに固有の方法でデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。1つは、Mozilla Common Voiceに基づくDVoiceプラットフォーム(https://dvoice.maとhttps://dvoice.sn)で、コミュニティから本物の録音を収集します。もう1つは、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術です。DVoiceプラットフォームは現在、このバージョンにデータセットが登場するDarija(モロッコのアラビア語方言)を含む7つの言語を管理しています。
このプロジェクトでは、AIOX LabsとSI2M Laboratoryが力を合わせて、技術の未来を築いています。
AIOX Labsについて
ラバト、ロンドン、パリに拠点を置くAIOX-Labsは、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトに対応しています。
- グループの成長、プロセスの最適化、または顧客体験の向上に役立ちます。
- フィンテックから産業まで、多様なセクターに対応しています。
- 堅固なアルゴリズムベースと、各クライアントの特定のニーズに合わせた適応性を備えた、ビジネスに即戦力なデータ製品を提供します。
- AIの博士とビジネスエキスパートから構成される補完的なチームで、堅固な科学的基盤と国際的な出版物を持っています。
ウェブサイト: https://www.aiox-labs.com/
SI2M Laboratoryについて
情報システム、知能システム、数学的モデリング研究室(SI2M)は、国立統計・応用経済研究所(INSEA)の学術研究室です。研究室の研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムのセキュリティ、数学的モデリングです。
ウェブサイト: SI2M Laboratory
SpeechBrainについて
SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な分野で、競争力のあるまたは最先端のパフォーマンスが得られます。
ウェブサイト: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
謝辞
この研究は、モロッコのラバトにあるCNRSTが提供するHPC-MARWAN(www.marwan.ma/hpc)の計算リソースを通じて支援されました。この機関に深く感謝します。