🚀 Hubert-Extra-Large-Finetuned
FacebookのHubertモデルをベースに、960時間のLibrispeech音声オーディオで微調整された超大規模モデルで、自動音声認識タスクに使用できます。
🚀 クイックスタート
このモデルは、16kHzでサンプリングされた音声オーディオに対して、960時間のLibrispeechデータを使って微調整された超大規模モデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。
このモデルは hubert-xlarge-ll60k の微調整版です。
論文リンク
著者:Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
✨ 主な機能
- 適用データセット:libri-light、librispeech_asr
- タグ:speech、audio、automatic-speech-recognition、hf-asr-leaderboard
- ライセンス:apache-2.0
属性 |
詳細 |
モデルタイプ |
Hubert-Extra-Large-Finetuned |
学習データ |
libri-light、librispeech_asr |
モデル評価結果
LibriSpeech (clean) テストセットにおける文字誤り率(WER)は1.8です。
📚 ドキュメント
概要
音声表現学習の自己教師付き学習方法は、3つの独特な問題に直面しています。(1)各入力音声には複数の音声単位が含まれていること;(2)事前学習段階では入力音声単位の辞書がないこと;(3)音声単位の長さが可変で、明確な分割がないことです。これら3つの問題を解決するために、自己教師付き音声表現学習のためのHidden-Unit BERT(HuBERT)方法を提案します。この方法は、オフラインクラスタリングステップを利用して、BERTのような予測損失に対してアライメントされたターゲットラベルを提供します。我々の方法の重要な要素は、予測損失をマスク領域にのみ適用することで、これによりモデルが連続入力に対して組み合わせた音響モデルと言語モデルを学習するように強制します。HuBERTは主に、割り当てられたクラスタラベルの内在的な品質ではなく、教師付きクラスタリングステップの一貫性に依存しています。単純な100クラスタのk-means教師から始めて、2ラウンドのクラスタリングを行うことで、HuBERTモデルはLibrispeech(960時間)とLibri-light(60,000時間)のベンチマークにおける10分、1時間、10時間、100時間、960時間の微調整サブセットで、最先端のwav2vec 2.0の性能と同等またはそれを上回っています。10億パラメータのモデルを使用することで、HuBERTはより挑戦的なdev-otherとtest-other評価サブセットで、最大19%と13%の相対的な文字誤り率の低下を示しています。
オリジナルモデルは https://github.com/pytorch/fairseq/tree/master/examples/hubert で見つけることができます。
💻 使用例
基本的な使用法
import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset
processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])
📄 ライセンス
このプロジェクトはApache 2.0ライセンスの下で提供されています。