hubert-large-ls960-ftオープンソース音声モデル - 無料でのデプロイをサポートし、自動音声認識に使用可能

ホーム

Hubert Large Ls960 Ft

facebookによって開発

HuBERT-Largeは、LibriSpeechの960時間の音声データで微調整された自己教師付き音声表現学習モデルで、自動音声認識タスクに使用されます。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #自己教師付き学習 #英語音声処理

ダウンロード数 776.27k

リリース時間 : 3/2/2022

モデル概要

このモデルは、Facebookが提案したHuBERT自己教師付き音声表現学習方法の実装で、LibriSpeechの960時間の音声データで微調整され、英語の自動音声認識タスクに特化しています。

モデル特徴

自己教師付き学習

自己教師付き学習方法を採用し、大量のラベル付きデータを必要とせずに効果的な音声表現を学習できます。

効率的な微調整

LibriSpeechの960時間の音声データで微調整され、英語の音声認識タスクに適しています。

BERT型予測損失

BERT型予測損失を使用し、音響モデルと言語モデルを組み合わせて学習します。

モデル能力

英語音声認識

16kHzサンプリングレートの音声処理

使用事例

音声を文字に変換

会議記録

英語の会議録音を文字記録に変換します。

LibriSpeechテストセットで1.9%のWERを達成しました。

音声アシスタント

音声アシスタントの音声認識コンポーネントとして使用します。

🚀 Hubert-Large-Finetuned

FacebookのHubertモデルをベースに、960時間のLibrispeech音声オーディオで微調整された、自動音声認識用のモデルです。

🚀 クイックスタート

このモデルは、16kHzでサンプリングされた音声オーディオに対して、960時間のLibrispeechデータを使用して大規模モデルを微調整したものです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

このモデルは hubert-large-ll60k の微調整版です。

論文リンク

著者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

概要

音声表現学習の自己教師付き手法は、3つの独特な問題に直面しています。（1）各入力発話に複数の音声単位が存在すること；（2）事前学習段階で入力音声単位の辞書がないこと；（3）音声単位の長さが可変で明確な分割がないこと。これら3つの問題を解決するために、自己教師付き音声表現学習のためのHidden-Unit BERT（HuBERT）手法を提案します。この手法は、オフラインクラスタリングステップを利用して、BERTのような予測損失に対してアライメントされたターゲットラベルを提供します。我々の手法の重要な要素は、マスク領域にのみ予測損失を適用することで、連続入力に対して組み合わせた音響および言語モデルを学習させることです。HuBERTは、割り当てられたクラスタラベルの内在的な品質ではなく、教師なしクラスタリングステップの一貫性に主に依存しています。単純な100クラスタのk-means教師から始め、2ラウンドのクラスタリングを行うことで、HuBERTモデルは、Librispeech（960時間）およびLibri-light（60,000時間）のベンチマークの10分、1時間、10時間、100時間、960時間の微調整サブセットで、最先端のwav2vec 2.0の性能と同等またはそれ以上の性能を発揮します。10億パラメータのモデルを使用すると、より挑戦的なdev-otherおよびtest-other評価サブセットで、最大19％および13％の相対的な単語誤り率（WER）の低下が見られます。

元のモデルは https://github.com/pytorch/fairseq/tree/master/examples/hubert で見つけることができます。

✨ 主な機能

データセット：libri-light と librispeech_asr データセットを使用しています。
適用分野：音声、オーディオ、自動音声認識などの分野に適用可能で、HF自動音声認識ランキングにランクインしています。
ライセンス：apache-2.0 ライセンスを採用しています。

属性	詳細
モデルタイプ	Hubert-Large-Finetuned
学習データ	libri-light、librispeech_asr

LibriSpeech (clean) テストセットでのテスト単語誤り率（Test WER）は1.9です。

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset

processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])

# ->"A MAN SAID TO THE UNIVERSE SIR I EXIST"