Hubert-xlarge-ll60kオープンソース音声モデル - 音声の音響と言語の統合された表現学習を無料で実現

ホーム

Hubert Xlarge Ll60k

facebookによって開発

Hubertは自己監督学習に基づく音声表現モデルで、BERTに似た予測損失を通じて音声の音響と言語の連合表現を学習します。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #自己监督型音声表現 #16kHz音声処理 #マルチタスク微調整適合

ダウンロード数 3,874

リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリングの音声オーディオを基に事前学習され、自動音声認識、話者認識などの様々な下流音声タスクに適用できます。

モデル特徴

自己監督学習

BERTに似た予測損失を通じて音声表現を学習し、大量のラベル付きデータを必要としません。

複数回のクラスタリング反復

2回のクラスタリング反復を用いてモデルの性能を最適化し、表現の質を向上させます。

連合表現学習

音響モデルと言語モデルの連合表現を同時に学習し、下流タスクの性能を向上させます。

モデル能力

音声表現抽出

自動音声認識

話者認識

意図分類

感情認識

使用事例

音声処理

自動音声認識

音声をテキストに変換する

LibrispeechとLibri - lightのベンチマークテストでwav2vec 2.0の性能に達するか、それを上回ります

話者認識

音声中の話者の身元を識別する

🚀 Hubert-Extra-Large

Hubert-Extra-Largeは、16kHzでサンプリングされた音声オーディオ上で事前学習された超大規模モデルです。このモデルは、音声認識、話者認識、意図分類、感情認識などの下流タスクを解決するために使用できます。使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは FacebookのHubert をベースに開発され、 Libri-Light データセットで事前学習されています。このモデルを微調整する方法については、このブログを参照できます。ただし、Wav2Vec2ForCTC クラスを HubertForCTC に置き換える必要があります。

✨ 主な機能

大規模な事前学習：16kHzでサンプリングされた音声オーディオ上で事前学習されており、様々な音声関連の下流タスクに適用可能です。
音声学習の難題解決：このモデルが提案するHidden-Unit BERT (HuBERT) 手法は、自己教師付き音声表現学習における3つの独特な問題を効果的に解決します。具体的には、入力発話中の複数の音声単位、事前学習段階における入力音声単位の辞書の欠如、および音声単位の長さが可変で明確な分割がないという問題です。
優れた性能：Librispeech (960h) およびLibri-light (60,000h) のベンチマークテストでは、10分、1時間、10時間、100時間、および960時間の微調整サブセットを使用して、HuBERTモデルの性能は最先端のwav2vec 2.0と同等またはそれ以上です。10億パラメータのモデルを使用すると、より挑戦的なdev-otherおよびtest-other評価サブセットで、相対的な単語誤り率 (WER) がそれぞれ19%と13%低下します。

📚 ドキュメント

論文情報

論文リンク：Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
著者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

概要

自己教師付き音声表現学習手法は、3つの独特な問題に直面しています。(1) 各入力発話に複数の音声単位が含まれること、(2) 事前学習段階で入力音声単位の辞書がないこと、(3) 音声単位の長さが可変で明確な分割がないことです。これら3つの問題を解決するために、我々は自己教師付き音声表現学習のためのHidden-Unit BERT (HuBERT) 手法を提案します。この手法は、オフラインクラスタリングステップを利用して、BERTのような予測損失に対して整列されたターゲットラベルを提供します。我々の手法の重要な要素の1つは、予測損失をマスクされた領域にのみ適用することで、モデルに連続入力上で組み合わせた音響および言語モデルを学習させます。HuBERTは主に、割り当てられたクラスタラベルの内在的な品質ではなく、教師付きクラスタリングステップの一貫性に依存しています。単純な100クラスタのk-means教師から始めて、2ラウンドのクラスタリングを使用して、HuBERTモデルはLibrispeech (960h) およびLibri-light (60,000h) のベンチマークテストで、10分、1時間、10時間、100時間、および960時間の微調整サブセットを使用して、最先端のwav2vec 2.0と同等またはそれ以上の性能を発揮します。10億パラメータのモデルを使用すると、より挑戦的なdev-otherおよびtest-other評価サブセットで、相対的な単語誤り率 (WER) がそれぞれ19%と13%低下します。