🚀 Hubert-Large-Finetuned
基於Facebook的Hubert模型,在960小時的Librispeech語音音頻上進行微調,用於自動語音識別的模型
🚀 快速開始
本模型是在16kHz採樣的語音音頻上,基於960小時的Librispeech數據對大模型進行微調得到的。使用該模型時,請確保輸入的語音也採樣為16kHz。
模型是 hubert-large-ll60k 的微調版本。
論文鏈接
作者:Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
摘要
語音表徵學習的自監督方法面臨三個獨特的問題:(1)每個輸入話語中存在多個聲音單元;(2)在預訓練階段沒有輸入聲音單元的詞典;(3)聲音單元長度可變且沒有明確的分割。為了解決這三個問題,我們提出了用於自監督語音表徵學習的Hidden-Unit BERT(HuBERT)方法,該方法利用離線聚類步驟為類似BERT的預測損失提供對齊的目標標籤。我們方法的一個關鍵要素是僅在掩碼區域上應用預測損失,這迫使模型在連續輸入上學習組合的聲學和語言模型。HuBERT主要依賴於無監督聚類步驟的一致性,而不是分配的聚類標籤的內在質量。從一個簡單的100聚類的k-means教師開始,並使用兩輪聚類,HuBERT模型在Librispeech(960小時)和Libri-light(60,000小時)基準測試的10分鐘、1小時、10小時、100小時和960小時微調子集上,要麼與最先進的wav2vec 2.0性能相匹配,要麼有所改進。使用一個10億參數的模型,HuBERT在更具挑戰性的dev-other和test-other評估子集上顯示出高達19%和13%的相對字錯誤率(WER)降低。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 找到。
✨ 主要特性
- 數據集:使用了
libri-light
和 librispeech_asr
數據集。
- 適用領域:適用於語音、音頻、自動語音識別等領域,位列HF自動語音識別排行榜。
- 許可證:採用
apache-2.0
許可證。
屬性 |
詳情 |
模型類型 |
Hubert-Large-Finetuned |
訓練數據 |
libri-light、librispeech_asr |
在LibriSpeech (clean) 測試集上的測試字錯誤率(Test WER)為1.9。
💻 使用示例
基礎用法
import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset
processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])
📄 許可證
本項目採用 apache-2.0
許可證。