wav2vec2-FR-3K-largeオープンソースモデル - フランス語の自発的、朗読、放送の音声を無料で処理

ホーム

Wav2vec2 FR 3K Large

LeBenchmarkによって開発

2.9K時間のフランス語音声で訓練された大型wav2vec2モデルで、自発的な音声、朗読音声、放送音声の処理をサポートします。

音声認識フランス語オープンソースライセンス:Apache-2.0 #フランス語音声事前学習 #多シーン音声処理 #自己教師付き学習

ダウンロード数 948

リリース時間 : 3/2/2022

モデル概要

このモデルはLeBenchmarkシリーズの大型フランス語音声処理モデルで、wav2vec2アーキテクチャに基づいており、さまざまなフランス語音声タスクに適しています。

モデル特徴

多種類の音声サポート

自発的な音声、朗読音声、放送音声など、さまざまなフランス語音声タイプの処理をサポートします。

大規模訓練データ

2.9K時間のフランス語音声データを基に訓練されており、男性1.8K時間/女性1.0K時間/不明0.1K時間のデータが含まれています。

柔軟な統合

FairseqやSpeechBrainなどのツールキットと統合でき、さまざまな下流タスクをサポートします。

モデル能力

フランス語音声認識

音声特徴抽出

話者識別

音源分離

使用事例

音声からテキストへの変換

フランス語音声の文字起こし

フランス語音声の内容をテキストに変換します。

音声分析

話者識別

音声中の異なる話者を識別します。

🚀 LeBenchmark: 3000時間のフランス語音声で学習されたwav2vec2大規模モデル

LeBenchmarkは、自然な発話、読み上げ、放送などの様々なフランス語データセットで事前学習されたwav2vec2モデルのセットを提供します。2つのバージョンがあり、後者のバージョン（LeBenchmark 2.0）は、事前学習された自己教師付き学習（SSL）モデルの数と下流タスクの数の両面で、最初のバージョンを拡張したものです。 wav2vec2モデルを評価するために使用できるさまざまなベンチマークに関する詳細情報は、LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speechの論文を参照してください。

✨ 主な機能

様々なフランス語データセットで事前学習されたwav2vec2モデルを提供
2つのバージョンがあり、拡張版のLeBenchmark 2.0が提供される
異なるアーキテクチャとコーパスサイズのモデルが用意されている

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていません。

📚 ドキュメント

モデルとデータの説明

私たちは、HuggingFaceの組織配下に4つの異なるモデルを公開しています。4種類の異なるwav2vec2アーキテクチャ（Light、Base、Large、xLarge）が、小規模（1000時間）、中規模（3000時間）、大規模（7000時間）、超大規模（14000時間）のコーパスと組み合わされています。簡単に説明すると：

Lebenchmark 2.0

wav2vec2-FR-14K-xlarge：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたxLarge wav2vec2モデル。
wav2vec2-FR-14K-large：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-14K-light：14000時間のフランス語音声（男性5400時間 / 女性2400時間 / 不明6800時間）で学習されたLight wav2vec2モデル。

Lebenchmark

wav2vec2-FR-7K-large：7600時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明4800時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-7K-base：7600時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明4800時間）で学習されたBase wav2vec2モデル。
wav2vec2-FR-3K-large：2900時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明100時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-3K-base：2900時間のフランス語音声（男性1800時間 / 女性1000時間 / 不明100時間）で学習されたBase wav2vec2モデル。
wav2vec2-FR-2.6K-base：2600時間のフランス語音声（自然な発話なし）で学習されたBase wav2vec2モデル。
wav2vec2-FR-1K-large：1000時間のフランス語音声（男性500時間 / 女性500時間）で学習されたLarge wav2vec2モデル。
wav2vec2-FR-1K-base：1000時間のフランス語音声（男性500時間 / 女性500時間）で学習されたBase wav2vec2モデル。

想定される用途と制限

事前学習されたwav2vec2モデルは、Apache-2.0ライセンスの下で配布されています。したがって、厳格な制限なしに広範囲に再利用することができます。ただし、ベンチマークやデータは、完全にオープンソースではないコーパスに関連付けられている場合があります。

Fairseqを使用したASRとCTCでの微調整

私たちのwav2vec2モデルはFairseqで学習されているため、彼らが提供するさまざまなツールを使用して、CTCを用いたASRのためにモデルを微調整することができます。完全な手順は、このブログ記事でまとめられています。

なお、CTCの性質上、音声テキスト変換の結果は最先端のレベルであることは期待できません。また、FairseqとHuggingFaceの関与に応じて、将来的な機能が追加される可能性があります。

SpeechBrainへの統合（ASR、話者認識、音源分離など）

事前学習されたwav2vecモデルは最近人気を博しています。同時に、SpeechBrainツールキットが登場し、最先端の音声と深層学習技術を扱う新しく簡単な方法を提案しています。

現在はベータ版ですが、SpeechBrainは、Fairseqで学習されたwav2vec2モデル（つまり、私たちのLeBenchmarkモデル）をうまく統合する2つの異なる方法を提供しています！

オンザフライでwav2vec2の特徴量を抽出し（凍結されたwav2vec2エンコーダを使用）、音声関連のアーキテクチャと組み合わせることができます。例えば、CTC+Attention+言語モデルを用いたエンドツーエンドのASR、話者認識または検証、音源分離などです。
実験的な方法：wav2vec2の恩恵を最大限に享受するには、下流タスクを学習する際にモデルを微調整することが最善の解決策です。SpeechBrainでは、フラグをオンにするだけで簡単にこれが可能です。したがって、私たちのwav2vec2モデルは、好きなASRパイプラインや話者認識器を学習する際に微調整することができます。

興味がある場合は、このチュートリアルに従ってください

LeBenchmarkの引用

@misc{parcollet2023lebenchmark,
      title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech}, 
      author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
      year={2023},
      eprint={2309.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}