hubert-large-ll60kオープンソース音声モデル - 音声認識、生成、圧縮に無料で利用可能

ホーム

Hubert Large Ll60k

facebookによって開発

HuBERTは自己教師あり音声表現学習モデルで、オフラインクラスタリングステップによりBERT風予測損失のためのアライメント目標ラベルを提供し、音声認識、生成、圧縮タスクに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #自己教師あり音声表現 #多段階クラスタリング反復 #音響言語モデルの共同学習

ダウンロード数 30.99k

リリース時間 : 3/2/2022

モデル概要

HuBERT（隠れユニットBERT）は革新的なマスキング予測損失とクラスタリング手法を用いた自己教師あり音声表現学習フレームワークで、音声認識タスクで優れた性能を発揮します。

モデル特徴

自己教師あり学習

ラベル付けデータなしで事前学習が可能で、革新的なマスキング予測損失を通じて音声表現を学習

2段階クラスタリング

初期k-meansクラスタリングと反復最適化により、安定した予測目標ラベルを生成

効率的な表現

LibrispeechとLibri-lightベンチマークでwav2vec 2.0の性能を凌駕

大規模トレーニング

10分から6万時間までのトレーニングデータ規模に対応

モデル能力

音声表現学習

音声認識

音声生成

音声圧縮

使用事例

音声技術

音声認識システム

HuBERTモデルを微調整して高精度な音声認識システムを構築

Librispeechテストセットで13-19%の単語誤り率削減を実現

音声合成フロントエンド

学習された音声表現を活用して音声合成システムのフロントエンド処理を改善

🚀 Hubert-Large

FacebookのHuBERTは、音声認識、生成、圧縮のための自己教師付き表現学習モデルです。

この大規模モデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは音声のみで事前学習されているため、トークナイザーを持っていません。このモデルを音声認識に使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルを微調整する必要があります。モデルの微調整方法についての詳細な説明は、このブログを参照してください。

モデルはLibri-Lightで事前学習されています。

📚 ドキュメント

論文情報

論文
著者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

概要

音声表現学習の自己教師付きアプローチは、3つの独自の問題に直面しています。

各入力発話に複数の音声単位がある。
事前学習フェーズでは入力音声単位の辞書がない。
音声単位の長さが可変で、明示的なセグメンテーションがない。

これらの3つの問題に対処するために、自己教師付き音声表現学習のためのHidden-Unit BERT（HuBERT）アプローチを提案します。これは、オフラインクラスタリングステップを利用して、BERTのような予測損失に対する整列されたターゲットラベルを提供します。このアプローチの重要な要素は、マスクされた領域にのみ予測損失を適用することで、モデルに連続入力に対する音響と言語の組み合わせモデルを学習させます。HuBERTは、主に教師なしクラスタリングステップの一貫性に依存しており、割り当てられたクラスタラベルの本質的な品質には依存しません。100クラスターの単純なk-means教師から始めて、2回のクラスタリングを行うことで、HuBERTモデルは、10分、1時間、10時間、100時間、および960時間の微調整サブセットを使用して、Librispeech（960時間）およびLibri-light（60,000時間）のベンチマークで、最先端のwav2vec 2.0の性能と同等またはそれ以上の性能を発揮します。10億パラメータモデルを使用すると、より困難なdev-otherおよびtest-other評価サブセットで、最大19％および13％の相対的なWER削減が見られます。