hubert-large-ls960-ft開源語音模型 - 支持免費部署，用於自動語音識別

首頁

Hubert Large Ls960 Ft

由facebook開發

HuBERT-Large是基於LibriSpeech 960小時語音數據微調的自監督語音表示學習模型，用於自動語音識別任務。

語音識別

Transformers

英語開源協議:Apache-2.0 #高精度語音識別 #自監督學習 #英語語音處理

下載量 776.27k

發布時間 : 3/2/2022

模型概述

該模型是Facebook提出的HuBERT自監督語音表示學習方法的實現，經過LibriSpeech 960小時語音數據的微調，專門用於英語自動語音識別任務。

模型特點

自監督學習

採用自監督學習方法，無需大量標註數據即可學習有效的語音表示

高效微調

在LibriSpeech 960小時語音數據上微調，適用於英語語音識別任務

BERT類預測損失

使用BERT類預測損失，結合聲學和語言模型學習

模型能力

英語語音識別

16kHz採樣率語音處理

使用案例

語音轉文字

會議記錄

將英語會議錄音轉換為文字記錄

在LibriSpeech測試集上達到1.9%的WER

語音助手

作為語音助手的語音識別組件

🚀 Hubert-Large-Finetuned

基於Facebook的Hubert模型，在960小時的Librispeech語音音頻上進行微調，用於自動語音識別的模型

🚀 快速開始

本模型是在16kHz採樣的語音音頻上，基於960小時的Librispeech數據對大模型進行微調得到的。使用該模型時，請確保輸入的語音也採樣為16kHz。

模型是 hubert-large-ll60k 的微調版本。

論文鏈接

作者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

摘要

語音表徵學習的自監督方法面臨三個獨特的問題：（1）每個輸入話語中存在多個聲音單元；（2）在預訓練階段沒有輸入聲音單元的詞典；（3）聲音單元長度可變且沒有明確的分割。為了解決這三個問題，我們提出了用於自監督語音表徵學習的Hidden-Unit BERT（HuBERT）方法，該方法利用離線聚類步驟為類似BERT的預測損失提供對齊的目標標籤。我們方法的一個關鍵要素是僅在掩碼區域上應用預測損失，這迫使模型在連續輸入上學習組合的聲學和語言模型。HuBERT主要依賴於無監督聚類步驟的一致性，而不是分配的聚類標籤的內在質量。從一個簡單的100聚類的k-means教師開始，並使用兩輪聚類，HuBERT模型在Librispeech（960小時）和Libri-light（60,000小時）基準測試的10分鐘、1小時、10小時、100小時和960小時微調子集上，要麼與最先進的wav2vec 2.0性能相匹配，要麼有所改進。使用一個10億參數的模型，HuBERT在更具挑戰性的dev-other和test-other評估子集上顯示出高達19%和13%的相對字錯誤率（WER）降低。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 找到。

✨ 主要特性

數據集：使用了 libri-light 和 librispeech_asr 數據集。
適用領域：適用於語音、音頻、自動語音識別等領域，位列HF自動語音識別排行榜。
許可證：採用 apache-2.0 許可證。

屬性	詳情
模型類型	Hubert-Large-Finetuned
訓練數據	libri-light、librispeech_asr

在LibriSpeech (clean) 測試集上的測試字錯誤率（Test WER）為1.9。

💻 使用示例

基礎用法

import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset

processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])

# ->"A MAN SAID TO THE UNIVERSE SIR I EXIST"