wav2vec2-FR-3K-baseオープンソース音声モデル - フランス語音声を基に訓練され、多様なシーンの音声に対応

ホーム

Wav2vec2 FR 3K Base

LeBenchmarkによって開発

2.9K時間のフランス語音声で学習したwav2vec2の基礎モデルで、自発的、朗読、放送音声に対応

音声認識

Transformers

フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #自己教師付き学習 #多シーン音声処理

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

LeBenchmarkが提供するwav2vec2の基礎モデルで、自発的、朗読、放送音声を含む様々なフランス語データセットで事前学習され、音声関連タスクに適しています

モデル特徴

多シーン音声学習

モデルは自発的、朗読、放送音声を含む様々なフランス語データセットで事前学習され、様々な音声シーンに適応します

複数の規模選択

1Kから14K時間までの異なる規模の事前学習モデルを提供し、異なる計算リソースのニーズを満たします

オープンソースライセンス

モデルはApache - 2.0ライセンスに基づいて配布され、広く再利用できます

モデル能力

音声特徴抽出

音声表現学習

自動音声認識

話者認識

使用事例

音声処理

自動音声認識(ASR)

CTCを使用してモデルをASR微調整します

CTCの性質上、音声からテキストへの結果は最先端ではないと予想されます

話者認識

SpeechBrainツールキットを組み合わせて話者認識または検証を行います

🚀 LeBenchmark: 3000時間のフランス語音声で学習されたwav2vec2ベースモデル

LeBenchmarkは、自然な発話、朗読音声、放送音声などを含む様々なフランス語データセットで事前学習されたwav2vec2モデルのセットを提供します。このモデルには2つのバージョンがあり、後者のバージョン（LeBenchmark 2.0）は、事前学習された自己教師付き学習（SSL）モデルの数と下流タスクの数の両方において、最初のバージョンの拡張版となっています。 wav2vec2モデルを評価するために使用できるさまざまなベンチマークに関する詳細情報については、以下の論文を参照してください：LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

📚 モデルとデータの説明

私たちは、HuggingFaceの組織の下で見つけることができる4つの異なるモデルをリリースしています。4つの異なるwav2vec2アーキテクチャ Light、Base、Large、xLarge が、小規模（1000時間）、中規模（3000時間）、大規模（7000時間）、超大規模（14000時間）のコーパスと組み合わされています。簡単に言うと：

Lebenchmark 2.0

wav2vec2-FR-14K-xlarge：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたxLarge wav2vec2モデル。
wav2vec2-FR-14K-large：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-14K-light：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたLight wav2vec2モデル。

Lebenchmark

wav2vec2-FR-7K-large：7600時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明4800時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-7K-base：7600時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明4800時間）で学習されたBase wav2vec2モデル。
wav2vec2-FR-3K-large：2900時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明100時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-3K-base：2900時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明100時間）で学習されたBase wav2vec2モデル。
wav2vec2-FR-2.6K-base：2600時間のフランス語音声（自然な発話なし）で学習されたBase wav2vec2モデル。
wav2vec2-FR-1K-large：1000時間のフランス語音声（男性500時間 / 女性500時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-1K-base：1000時間のフランス語音声（男性500時間 / 女性500時間）で学習されたBase wav2vec2モデル。

🔍 想定される用途と制限

事前学習されたwav2vec2モデルは、Apache-2.0ライセンスの下で配布されています。したがって、厳格な制限なしに広く再利用することができます。ただし、ベンチマークやデータは、完全にオープンソースではないコーパスに関連付けられている場合があります。

💻 Fairseqを使用したCTCによるASRの微調整

私たちのwav2vec2モデルはFairseqで学習されているため、彼らが提供するさまざまなツールを使用して、CTCによるASRのためにモデルを微調整することができます。完全な手順は、このブログ記事でまとめられています。

CTCの性質上、音声テキスト変換の結果は最先端のレベルにはならないことに注意してください。さらに、FairseqとHuggingFaceの関与に応じて、将来的に新しい機能が追加される可能性があります。

🛠️ SpeechBrainへの統合（ASR、話者認識、音源分離など）

事前学習されたwav2vecモデルは最近人気が高まっています。同時に、SpeechBrainツールキットが登場し、最先端の音声とディープラーニング技術を扱う新しく簡単な方法を提案しています。

現在ベータ版ですが、SpeechBrainは、Fairseqで学習されたwav2vec2モデル、つまり私たちのLeBenchmarkモデルをうまく統合する2つの異なる方法を提供しています！

オンザフライでwav2vec2特徴量を抽出（wav2vec2エンコーダを固定）し、音声関連のアーキテクチャと組み合わせる。例としては、CTC+Attention+言語モデルによるE2E ASR、話者認識または検証、音源分離などがあります。
実験的：wav2vec2の恩恵を最大限に受けるには、下流タスクを学習する際にモデルを微調整するのが最善の解決策です。これは、SpeechBrain内で単純にフラグをオンにするだけで可能です。したがって、私たちのwav2vec2モデルは、お好きなASRパイプラインや話者認識器を学習する際に微調整することができます。

興味がある場合は、このチュートリアルに従ってください

📄 LeBenchmarkの引用

@misc{parcollet2023lebenchmark,
      title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech}, 
      author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
      year={2023},
      eprint={2309.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}