xlrs-53 - フィンランド語オープンソース音声認識モデル - 53言語をサポートする無料の音声認識ツール

ホーム

Xlrs 53 Finnish

vnerallaによって開発

XLSR-Wav2Vec2は多言語音声認識モデルで、言語間事前学習により共有音声表現を学習し、53言語をサポートします。

音声認識その他オープンソースライセンス:Apache-2.0 #多言語音声認識 #言語間事前学習 #低リソース音声処理

ダウンロード数 32

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec 2.0アーキテクチャに基づき、多言語の生音声波形で事前学習を行い、言語間で共有される音声表現を学習します。自動音声認識などの下流タスクに適しています。

モデル特徴

言語間事前学習

53言語で事前学習を行い、言語間で共有される音声表現を学習します。

wav2vec 2.0ベース

wav2vec 2.0アーキテクチャを採用し、マスクされた潜在音声表現の対照タスクで訓練されます。

高性能

CommonVoiceベンチマークでは音素誤り率が72%相対的に改善、BABELデータセットでは単語誤り率が16%相対的に改善しました。

モデル能力

多言語音声認識

言語間音声表現学習

使用事例

音声認識

多言語音声文字起こし

複数言語の音声をテキストに変換します。

CommonVoiceとBABELデータセットで優れた性能を発揮します。

低リソース言語サポート

低リソース言語音声認識

リソースが少ない言語に対して音声認識能力を提供します。

言語間事前学習により、低リソース言語の認識性能が大幅に向上します。

🚀 Wav2Vec2-XLSR-53

FacebookのXLSR - Wav2Vec2は、生の音声から音声の構造を学習するモデルです。このベースモデルは16kHzサンプリングの音声オーディオで事前学習されており、自動音声認識などの下流タスクでの微調整が必要です。

🚀 クイックスタート

このモデルは16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。なお、このモデルは自動音声認識などの下流タスクで微調整する必要があります。詳細については、このブログを参照してください。

FacebookのXLSR - Wav2Vec2

論文

著者: Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli

概要

この論文では、複数の言語の生の音声波形から単一のモデルを事前学習することで、多言語音声表現を学習するXLSRを提案しています。wav2vec 2.0をベースに、マスクされた潜在音声表現に対する対照的なタスクを解くことで学習し、言語間で共有される潜在変数の量子化を同時に学習します。得られたモデルはラベル付きデータで微調整され、実験の結果、多言語の事前学習は単言語の事前学習を大幅に上回ることが示されています。CommonVoiceベンチマークでは、既知の最良の結果と比較して、音素誤り率が72％相対的に低下しています。BABELでは、同等のシステムと比較して、単語誤り率が16％相対的に改善されています。このアプローチにより、強力な個別モデルと競合する単一の多言語音声認識モデルが可能になります。分析の結果、潜在的な離散音声表現は言語間で共有されており、関連する言語では共有度が高くなっています。XLSR - 53を公開することで、低リソースの音声理解に関する研究を促進することを期待しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。