asr-wav2vec2-dvoice-amharicオープンソースモデル - アムハラ語の自動音声認識を正確に実現

ホーム

Asr Wav2vec2 Dvoice Amharic

speechbrainによって開発

これはアムハラ語向けの自動音声認識モデルで、wav2vec 2.0アーキテクチャとCTC/Attentionメカニズムを使用してトレーニングされています

音声認識

PyTorch

その他オープンソースライセンス:Apache-2.0 #アフリカ言語識別 #低リソース音声処理 #wav2vec2ファインチューニング

ダウンロード数 96

リリース時間 : 6/9/2022

モデル概要

このモデルは、アムハラ語の音声転写タスク専用のエンドツーエンド自動音声認識システムです。事前トレーニング済みのwav2vec 2.0モデルとCTCデコーダを組み合わせ、DVoiceアムハラ語データセットでファインチューニングされています。

モデル特徴

事前トレーニングモデルのファインチューニング

facebook/wav2vec2-large-xlsr-53事前トレーニングモデルを基にファインチューニングされ、アムハラ語の認識能力が向上しています

エンドツーエンドシステム

トークナイザーと音響モデルを含む完全なエンドツーエンドソリューションを提供します

マルチプラットフォームサポート

CPUとGPU推論をサポートし、さまざまなハードウェア環境に柔軟に展開できます

モデル能力

アムハラ語音声認識

音声転写

音声からテキストへの変換

使用事例

音声転写

アムハラ語音声転写

アムハラ語音声をテキストに変換

検証セットCER 6.71%、WER 25.50%

音声アシスタント

アムハラ語音声アシスタント

アムハラ語をサポートする音声インタラクションシステムの構築

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Amharic (No LM)

このリポジトリは、SpeechBrain内でALFFAアムハラ語データセットで事前学習されたエンドツーエンドシステムを使用して自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。

DVoiceリリース	検証セットのCER	検証セットのWER	テストセットのCER	テストセットのWER
v2.0	6.71	25.50	6.57	24.92

🚀 クイックスタート

このASRシステムを使って自動音声認識を始めることができます。まずはSpeechBrainをインストールしましょう。

✨ 主な機能

アムハラ語の自動音声認識をエンドツーエンドで実行できます。
事前学習されたwav2vec 2.0モデルを活用し、高精度な認識が可能です。
コードが自動的にオーディオを正規化するため、簡単に使用できます。

📦 インストール

まず、以下のコマンドでtransformersとSpeechBrainをインストールしてください。

pip install speechbrain transformers

SpeechBrainのチュートリアルを読み、SpeechBrainについてもっと学ぶことをおすすめします。

💻 使用例

基本的な使用法

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加します。

📚 ドキュメント

パイプラインの説明

このASRシステムは、2つの異なるが関連するブロックで構成されています。

トークナイザー（ユニグラム）：単語をサブワード単位に変換し、トレーニング用の文字起こしデータで学習されます。
音響モデル（wav2vec2.0 + CTC）：事前学習されたwav2vec 2.0モデル（facebook/wav2vec2-large-xlsr-53）が2つのDNNレイヤーと組み合わされ、ダリジャ語データセットで微調整されます。得られた最終的な音響表現は、CTC貪欲デコーダーに渡されます。システムは、16kHzでサンプリングされた録音（単一チャンネル）でトレーニングされています。コードは、transcribe_fileを呼び出す際に必要に応じてオーディオを自動的に正規化します（すなわち、リサンプリング + モノラルチャンネル選択）。

トレーニング

このモデルはSpeechBrainを使ってトレーニングされています。最初からトレーニングするには、以下の手順に従ってください。

SpeechBrainをクローンします。

git clone https://github.com/speechbrain/speechbrain/

インストールします。

cd speechbrain
pip install -r requirements.txt
pip install -e .

トレーニングを実行します。

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/

トレーニング結果（モデル、ログなど）はこちらで見ることができます。

🔧 技術詳細

モデルタイプ：wav2vec 2.0 + CTC
トレーニングデータ：DVoiceアムハラ語データセット
評価指標：WER、CER

📄 ライセンス

このプロジェクトは、"apache-2.0"ライセンスの下で提供されています。

その他の情報

制限事項

SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。

DVoiceについて

DVoiceは、アフリカの低リソース言語にデータとモデルを提供し、音声技術の利用を促進するコミュニティイニシアチブです。これらの言語のデータが不足しているため、それぞれに特有の方法でデータを収集する必要があります。現在、2つの異なるアプローチが使用されています。1つは、Mozilla Common Voiceに基づくDVoiceプラットフォーム（https://dvoice.maとhttps://dvoice.sn）で、コミュニティから本物の録音を収集するものです。もう1つは、ソーシャルメディアから取得した録音を自動的にラベリングする転移学習技術です。DVoiceプラットフォームは現在、このバージョンにデータセットが含まれるダリジャ語（モロッコのアラビア語方言）、ウォロフ語、マンディンゴ語、セレール語、プラル語、ディオラ語、ソニンケ語を含む7つの言語を管理しています。

このプロジェクトでは、AIOX LabsとSI2M Laboratoryが力を合わせて、技術の未来を築いています。

AIOX Labsについて

ラバト、ロンドン、パリに拠点を置くAIOX-Labsは、人工知能技術を活用して、企業のビジネスニーズとデータプロジェクトを満たしています。

グループの成長、プロセスの最適化、または顧客体験の向上に役立ちます。
AIOX-Labsは、フィンテックから産業、小売りや消費財を含む多くのセクターに対応しています。
堅固なアルゴリズム基盤と、各クライアントの特定のニーズに合わせた適応性を持つ、ビジネスに即座に活用できるデータ製品を提供します。
AIの博士とビジネスエキスパートからなる補完的なチームで、堅固な科学的基盤と国際的な出版物を持っています。ウェブサイト：https://www.aiox-labs.com/

SI2M Laboratoryについて

情報システム、知能システム、数学的モデリング研究室（SI2M）は、国立統計・応用経済研究所（INSEA）の学術研究室です。研究分野は、情報システム、知能システム、人工知能、意思決定支援、ネットワークとシステムセキュリティ、数学的モデリングです。ウェブサイト：SI2M Laboratory

SpeechBrainについて

SpeechBrainは、オープンソースの統合型音声ツールキットです。シンプルで、非常に柔軟性が高く、使いやすいように設計されています。様々な領域で、競争力のあるまたは最先端のパフォーマンスが得られます。ウェブサイト：https://speechbrain.github.io/ GitHub：https://github.com/speechbrain/speechbrain

SpeechBrainの引用

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }