hubert-xlarge-ls960-ft開源語音識別模型 - 免費高效精準處理語音內容

首頁

Hubert Xlarge Ls960 Ft

由facebook開發

基於Librispeech 960小時語音數據微調的Hubert超大規模語音識別模型，在LibriSpeech測試集上WER僅為1.8

語音識別

Transformers

英語開源協議:Apache-2.0 #高精度語音識別 #自監督學習 #英語語音處理

下載量 8,160

發布時間 : 3/2/2022

模型概述

該模型是Facebook開發的Hubert自監督語音表徵學習模型的微調版本，專門用於英語自動語音識別任務。

模型特點

自監督學習

採用HuBERT自監督學習方法，通過離線聚類步驟提供BERT式預測損失目標

高性能

在LibriSpeech clean測試集上WER僅為1.8，性能優異

大規模訓練

基於Librispeech 960小時語音數據進行微調

模型能力

英語語音識別

16kHz採樣率音頻處理

使用案例

語音轉寫

會議記錄轉寫

將英語會議錄音自動轉寫為文字

高準確率的文字轉寫結果

音頻內容索引

為音頻內容創建可搜索的文字索引

提升音頻內容的可檢索性

🚀 Hubert-Extra-Large-Finetuned

基於Facebook的Hubert模型，在960小時的Librispeech語音音頻上進行微調的超大型模型，可用於自動語音識別任務。

🚀 快速開始

本模型是在16kHz採樣的語音音頻上，基於960小時的Librispeech數據進行微調的超大型模型。使用該模型時，請確保輸入的語音也採樣為16kHz。

模型是 hubert-xlarge-ll60k 的微調版本。

論文鏈接

作者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

✨ 主要特性

適用數據集：libri-light、librispeech_asr
標籤：speech、audio、automatic-speech-recognition、hf-asr-leaderboard
許可證：apache-2.0

屬性	詳情
模型類型	Hubert-Extra-Large-Finetuned
訓練數據	libri-light、librispeech_asr

模型評估結果

在LibriSpeech (clean) 測試集上的字錯率（WER）為1.8。

📚 詳細文檔

摘要

語音表徵學習的自監督方法面臨三個獨特的問題：（1）每個輸入語音中有多個聲音單元；（2）在預訓練階段沒有輸入聲音單元的詞典；（3）聲音單元長度可變且沒有明確的分割。為了解決這三個問題，我們提出了用於自監督語音表徵學習的Hidden-Unit BERT（HuBERT）方法，該方法利用離線聚類步驟為類似BERT的預測損失提供對齊的目標標籤。我們方法的一個關鍵要素是僅在掩碼區域上應用預測損失，這迫使模型在連續輸入上學習組合的聲學和語言模型。HuBERT主要依賴於無監督聚類步驟的一致性，而不是分配的聚類標籤的內在質量。從一個簡單的100個聚類的k-means教師開始，並使用兩輪聚類，HuBERT模型在Librispeech（960小時）和Libri-light（60,000小時）基準測試的10分鐘、1小時、10小時、100小時和960小時微調子集上，要麼與最先進的wav2vec 2.0性能相匹配，要麼有所改進。使用一個10億參數的模型，HuBERT在更具挑戰性的dev-other和test-other評估子集上顯示出高達19%和13%的相對字錯率降低。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 找到。

💻 使用示例

基礎用法

import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset

processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])

# ->"A MAN SAID TO THE UNIVERSE SIR I EXIST"