🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Amharic (No LM)
このリポジトリは、SpeechBrain内でALFFAアムハラ語データセットで事前学習されたエンドツーエンドシステムを使用して自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。
DVoiceリリース |
検証セットのCER |
検証セットのWER |
テストセットのCER |
テストセットのWER |
v2.0 |
6.71 |
25.50 |
6.57 |
24.92 |
🚀 クイックスタート
このASRシステムを使って自動音声認識を始めることができます。まずはSpeechBrainをインストールしましょう。
✨ 主な機能
- アムハラ語の自動音声認識をエンドツーエンドで実行できます。
- 事前学習されたwav2vec 2.0モデルを活用し、高精度な認識が可能です。
- コードが自動的にオーディオを正規化するため、簡単に使用できます。
📦 インストール
まず、以下のコマンドでtransformersとSpeechBrainをインストールしてください。
pip install speechbrain transformers
SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをおすすめします。
💻 使用例
基本的な使用法
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加します。
📚 ドキュメント
パイプラインの説明
このASRシステムは、2つの異なるが関連するブロックで構成されています。
- トークナイザー(ユニグラム):単語をサブワード単位に変換し、トレーニング用の文字起こしデータで学習されます。
- 音響モデル(wav2vec2.0 + CTC):事前学習されたwav2vec 2.0モデル(facebook/wav2vec2-large-xlsr-53)が2つのDNNレイヤーと組み合わされ、ダリジャ語データセットで微調整されます。得られた最終的な音響表現は、CTC貪欲デコーダーに渡されます。
システムは、16kHzでサンプリングされた録音(単一チャンネル)でトレーニングされています。コードは、transcribe_fileを呼び出す際に必要に応じてオーディオを自動的に正規化します(すなわち、リサンプリング + モノラルチャンネル選択)。
トレーニング
このモデルはSpeechBrainを使ってトレーニングされています。最初からトレーニングするには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- トレーニングを実行します。
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/
トレーニング結果(モデル、ログなど)はこちらで見ることができます。
🔧 技術詳細
- モデルタイプ:wav2vec 2.0 + CTC
- トレーニングデータ:DVoiceアムハラ語データセット
- 評価指標:WER、CER
📄 ライセンス
このプロジェクトは、"apache-2.0"ライセンスの下で提供されています。
その他の情報
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。
DVoiceについて
DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語のデータが不足しているため、それぞれに特有の方法でデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。1つは、Mozilla Common Voiceに基づくDVoiceプラットフォーム(https://dvoice.maとhttps://dvoice.sn)で、コミュニティから本物の録音を収集するものです。もう1つは、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術です。DVoiceプラットフォームは現在、このバージョンにデータセットが含まれるダリジャ語(モロッコのアラビア語方言)、ウォロフ語、マンディンゴ語、セレール語、プラル語、ディオラ語、ソニンケ語を含む7つの言語を管理しています。
このプロジェクトでは、AIOX LabsとSI2M Laboratoryが力を合わせて、技術の未来を築いています。
AIOX Labsについて
ラバト、ロンドン、パリに拠点を置くAIOX-Labsは、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトを満たしています。
- グループの成長、プロセスの最適化、または顧客体験の向上に役立ちます。
- AIOX-Labsは、フィンテックから産業、小売りや消費財を含む多くのセクターに対応しています。
- 堅固なアルゴリズム基盤と、各クライアントの特定のニーズに合わせた適応性を持つ、ビジネスに即座に活用できるデータ製品を提供します。
- AIの博士とビジネスエキスパートからなる補完的なチームで、堅固な科学的基盤と国際的な出版物を持っています。
ウェブサイト:https://www.aiox-labs.com/
SI2M Laboratoryについて
情報システム、知能システム、数学的モデリング研究室(SI2M)は、国立統計・応用経済研究所(INSEA)の学術研究室です。研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムセキュリティ、数学的モデリングです。
ウェブサイト:SI2M Laboratory
SpeechBrainについて
SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な領域で、競争力のあるまたは最先端のパフォーマンスが得られます。
ウェブサイト:https://speechbrain.github.io/
GitHub:https://github.com/speechbrain/speechbrain
SpeechBrainの引用
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
謝辞
この研究は、モロッコのラバトにあるCNRSTが提供するHPC-MARWAN(www.marwan.ma/hpc)の計算リソースを通じて支援されています。この機関に深く感謝します。