wav2vec2-large-xlsr-53-german-gpt2オープンソースモデル - ドイツ語の自動音声認識を精度よく実現

ホーム

Wav2vec2 Large Xlsr 53 German Gpt2

jsnflyによって開発

これはMOZILLA-FOUNDATION/COMMON_VOICE_7_0ドイツ語データセットでトレーニングされた自動音声認識エンコーダ-デコーダモデルで、Wav2Vec2とGPT2アーキテクチャの利点を組み合わせています。

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #低単語誤り率(10.02WER)#エンコーダ-デコーダアーキテクチャ

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

このモデルはドイツ語の自動音声認識タスクに使用され、Wav2Vec2のエンコーダ能力とGPT2のデコーダ能力を組み合わせることで、効率的な音声からテキストへの変換機能を実現します。

モデル特徴

2段階トレーニング

最初にクロスアテンションの重みとデコーダを微調整し、その後エンドツーエンドの微調整を行い、トレーニング効率とモデル性能のバランスを取ります

位置埋め込み最適化

エンコーダ出力に位置埋め込みを追加し、GPT2で事前トレーニングされた位置埋め込みで初期化することで、性能を大幅に向上させます

リソース効率

第1段階のトレーニングは小型GPU（8GB VRAMなど）に適しており、リソースが限られた環境での使用が容易です

モデル能力

ドイツ語音声認識

高精度音声テキスト変換

使用事例

音声文字起こし

ドイツ語音声からテキストへ

ドイツ語の音声コンテンツをテキストに変換

Common Voice 7ドイツ語テストセットで10.02%の単語誤り率(WER)を達成

音声アシスタント

ドイツ語音声コマンド認識

ドイツ語の音声コマンドを認識し理解する

🚀 Wav2Vec2-Large-XLSR-53-German-GPT2

このモデルは、自動音声認識用のエンコーダ・デコーダモデルで、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - DEデータセットで学習されています。エンコーダはjonatasgrosman/wav2vec2-large-xlsr-53-germanから初期化され、デコーダはdbmdz/german-gpt2から初期化されています。

✨ 主な機能

自動音声認識タスクに特化したエンコーダ・デコーダモデルです。
2段階の学習プロセスを採用しています。
- まず、Wav2Vecモデルの事前計算された出力を使用して、クロスアテンションの重みとデコーダのみを微調整します。
  - 比較的高速な学習が可能です。
  - 小さなGPU（例えば8GB）でも動作します。
  - ただし、多くのディスクスペースを必要とする場合があります。
  - すでに相当な結果が得られるはずです。
- 次に、モデルをエンドツーエンドで微調整します。
  - はるかに低速です。
  - より大きなGPUが必要です。
エンコーダの出力に位置埋め込みを追加し、GPT2モデルの事前学習された位置埋め込みで初期化することで、性能が大幅に向上することがわかっています（eval.pyを参照）。

📚 ドキュメント

モデルの学習

このモデルは2段階の学習プロセスを使用して訓練されました。最初に、Wav2Vecモデルの事前計算された出力を使用して、クロスアテンションの重みとデコーダのみを微調整します。この段階では比較的高速な学習が可能で、小さなGPUでも動作しますが、多くのディスクスペースを必要とする場合があります。次に、モデルをエンドツーエンドで微調整します。これははるかに低速で、より大きなGPUが必要です。

性能向上のトリック

エンコーダの出力に位置埋め込みを追加し、GPT2モデルの事前学習された位置埋め込みで初期化することで、性能が大幅に向上することがわかっています。詳細はeval.pyを参照してください。

学習ノートブック

学習ノートブックはまだ初期段階のドラフトです。また、学習率スケジュールなどを使用することで、結果を大幅に改善できる可能性があります。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

モデル情報

属性	详情
モデルタイプ	自動音声認識用のエンコーダ・デコーダモデル
学習データ	MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - DEデータセット