Hubert - xlarge - ls960 - ftオープンソース音声認識モデル - 無料で効率的かつ正確に音声内容を処理

ホーム

Hubert Xlarge Ls960 Ft

facebookによって開発

Librispeechの960時間の音声データで微調整されたHubert超大型音声認識モデルで、LibriSpeechテストセットでのWERはわずか1.8です。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #自己教師付き学習 #英語音声処理

ダウンロード数 8,160

リリース時間 : 3/2/2022

モデル概要

このモデルは、Facebookが開発したHubert自己教師付き音声表現学習モデルの微調整バージョンで、英語の自動音声認識タスクに特化しています。

モデル特徴

自己教師付き学習

HuBERTの自己教師付き学習方法を採用し、オフラインクラスタリングステップによってBERT形式の予測損失目標を提供します。

高性能

LibriSpeech cleanテストセットでのWERはわずか1.8で、性能が優れています。

大規模学習

Librispeechの960時間の音声データを基に微調整されています。

モデル能力

英語音声認識

16kHzサンプリングレートの音声処理

使用事例

音声文字起こし

会議記録の文字起こし

英語の会議録音を自動的に文字起こしします。

高い正確率での文字起こし結果

音声コンテンツの索引付け

音声コンテンツに検索可能な文字索引を作成します。

音声コンテンツの検索可能性を向上させます。

🚀 Hubert-Extra-Large-Finetuned

FacebookのHubertモデルをベースに、960時間のLibrispeech音声オーディオで微調整された超大規模モデルで、自動音声認識タスクに使用できます。

🚀 クイックスタート

このモデルは、16kHzでサンプリングされた音声オーディオに対して、960時間のLibrispeechデータを使って微調整された超大規模モデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

このモデルは hubert-xlarge-ll60k の微調整版です。

論文リンク

著者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

✨ 主な機能

適用データセット：libri-light、librispeech_asr
タグ：speech、audio、automatic-speech-recognition、hf-asr-leaderboard
ライセンス：apache-2.0

属性	詳細
モデルタイプ	Hubert-Extra-Large-Finetuned
学習データ	libri-light、librispeech_asr

モデル評価結果

LibriSpeech (clean) テストセットにおける文字誤り率（WER）は1.8です。

📚 ドキュメント

概要

音声表現学習の自己教師付き学習方法は、3つの独特な問題に直面しています。（1）各入力音声には複数の音声単位が含まれていること；（2）事前学習段階では入力音声単位の辞書がないこと；（3）音声単位の長さが可変で、明確な分割がないことです。これら3つの問題を解決するために、自己教師付き音声表現学習のためのHidden-Unit BERT（HuBERT）方法を提案します。この方法は、オフラインクラスタリングステップを利用して、BERTのような予測損失に対してアライメントされたターゲットラベルを提供します。我々の方法の重要な要素は、予測損失をマスク領域にのみ適用することで、これによりモデルが連続入力に対して組み合わせた音響モデルと言語モデルを学習するように強制します。HuBERTは主に、割り当てられたクラスタラベルの内在的な品質ではなく、教師付きクラスタリングステップの一貫性に依存しています。単純な100クラスタのk-means教師から始めて、2ラウンドのクラスタリングを行うことで、HuBERTモデルはLibrispeech（960時間）とLibri-light（60,000時間）のベンチマークにおける10分、1時間、10時間、100時間、960時間の微調整サブセットで、最先端のwav2vec 2.0の性能と同等またはそれを上回っています。10億パラメータのモデルを使用することで、HuBERTはより挑戦的なdev-otherとtest-other評価サブセットで、最大19％と13％の相対的な文字誤り率の低下を示しています。

オリジナルモデルは https://github.com/pytorch/fairseq/tree/master/examples/hubert で見つけることができます。

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset

processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])

# ->"A MAN SAID TO THE UNIVERSE SIR I EXIST"