🚀 LeBenchmark: 7000時間のフランス語音声で学習されたwav2vec2大規模モデル
LeBenchmarkは、自然な発話、読み上げ、放送音声などを含む様々なフランス語データセットで事前学習されたwav2vec2モデルのセットを提供します。2つのバージョンがあり、後者のバージョン(LeBenchmark 2.0)は、事前学習された自己教師付き学習(SSL)モデルの数と下流タスクの数の両面で最初のバージョンを拡張したものです。
wav2vec2モデルを評価するために使用できるさまざまなベンチマークの詳細については、以下の論文を参照してください。LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech
🚀 クイックスタート
このプロジェクトのwav2vec2モデルを使用することで、フランス語の音声処理タスクを効率的に行うことができます。以下のセクションでは、モデルの詳細、使用方法、制限事項などを説明します。
✨ 主な機能
- 様々な規模のフランス語データセットで事前学習されたwav2vec2モデルを提供します。
- Fairseqを使用して学習されたモデルであり、CTCを用いた音声認識(ASR)の微調整が可能です。
- SpeechBrainツールキットとの統合が容易で、音声認識、話者認識、音源分離などのタスクに活用できます。
📦 インストール
元のREADMEにインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
元のREADMEにコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルとデータの説明
私たちは、HuggingFaceの組織配下に4種類の異なるモデルを公開しています。4種類の異なるwav2vec2アーキテクチャ(Light、Base、Large、xLarge)が、小規模(1K)、中規模(3K)、大規模(7K)、超大規模(14K)のコーパスと組み合わされています。簡単に言うと:
Lebenchmark 2.0:
Lebenchmark:
想定される用途と制限
事前学習されたwav2vec2モデルはApache-2.0ライセンスの下で配布されています。したがって、厳格な制限なしに広く再利用することができます。ただし、ベンチマークやデータは、完全にオープンソースではないコーパスに関連付けられている場合があります。
Fairseqを使用したCTCによるASRの微調整
私たちのwav2vec2モデルはFairseqを使用して学習されているため、彼らが提供するさまざまなツールを使用して、CTCを用いたASRのためにモデルを微調整することができます。完全な手順は、このブログ記事でまとめられています。
なお、CTCの性質上、音声テキスト変換の結果は最先端のレベルであることは期待できません。さらに、将来的な機能は、FairseqとHuggingFaceの関与に応じて出現する可能性があります。
SpeechBrainへの統合(ASR、話者認識、音源分離など)
事前学習されたwav2vecモデルは最近人気が高まっています。同時に、SpeechBrainツールキットが登場し、最先端の音声とディープラーニング技術を扱う新しく簡単な方法を提案しています。
現在ベータ版ですが、SpeechBrainは、Fairseqで学習されたwav2vec2モデル(つまり私たちのLeBenchmarkモデル)をうまく統合する2つの異なる方法を提供しています!
- オンザフライでwav2vec2の特徴量を抽出(凍結されたwav2vec2エンコーダを使用)し、音声関連のアーキテクチャと組み合わせることができます。例としては、CTC+Attention+言語モデルによるE2E ASR、話者認識または検証、音源分離などがあります。
- 実験的: wav2vec2の恩恵を最大限に享受するには、下流タスクを学習する際にモデルを微調整するのが最善の解決策です。これはSpeechBrain内で単純にフラグをオンにするだけで可能です。したがって、私たちのwav2vec2モデルは、お好きなASRパイプラインや話者認識器を学習する際に微調整することができます。
興味がある場合は、このチュートリアルに従ってください
LeBenchmarkの引用
@misc{parcollet2023lebenchmark,
title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech},
author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
year={2023},
eprint={2309.05472},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技術詳細
元のREADMEに技術的な詳細が十分に記載されていないため、このセクションは省略されます。
📄 ライセンス
事前学習されたwav2vec2モデルはApache-2.0ライセンスの下で配布されています。