Wav2Vec2-large-960h-lv60-self開源語音模型 - 免費體驗SOTA語音處理效果

首頁

Wav2vec2 Large 960h Lv60 Self

由facebook開發

Facebook開發的Wav2Vec2大模型，基於960小時Libri-Light和Librispeech語音數據預訓練和微調，採用自訓練目標，在LibriSpeech測試集上達到SOTA效果。

語音識別英語開源協議:Apache-2.0 #高精度語音識別 #自監督預訓練 #低資源適配

下載量 56.00k

發布時間 : 3/2/2022

模型概述

用於自動語音識別(ASR)的預訓練模型，通過自監督學習從原始音頻中學習語音表徵，再通過微調實現高精度語音轉文本。

模型特點

自監督預訓練

通過對比學習目標在潛在空間中學習語音表徵，減少對標註數據的依賴

高精度識別

在LibriSpeech測試集上達到1.9/3.9 WER(clean/other)的SOTA效果

低資源適應

僅需少量標註數據即可微調，在1小時標註數據下仍超越傳統方法

模型能力

英語語音識別

16kHz音頻處理

端到端語音轉文本

使用案例

語音轉錄

會議記錄自動化

將英語會議錄音自動轉換為文字記錄

高準確率轉錄，減少人工記錄成本

播客字幕生成

為英語播客內容自動生成字幕

支持批量處理，準確率達96%以上

輔助技術

聽力障礙輔助

即時將語音轉換為文字供聽力障礙人士閱讀

低延遲即時轉換

🚀 Wav2Vec2-Large-960h-Lv60 + 自訓練

本項目基於Facebook的Wav2Vec2技術，是一個在960小時的Libri-Light和Librispeech數據集上進行預訓練和微調的大模型，適用於16kHz採樣的語音音頻。該模型採用自訓練目標進行訓練。使用模型時，請確保輸入的語音也採樣為16kHz。

論文鏈接

作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要

我們首次證明，僅從語音音頻中學習強大的表徵，然後在轉錄語音上進行微調，在概念上更簡單的同時，性能可以超越最佳的半監督方法。wav2vec 2.0在潛在空間中對語音輸入進行掩碼，並解決了一個基於潛在表徵量化的對比任務，這些潛在表徵是聯合學習的。使用Librispeech的所有標註數據進行實驗，在乾淨/其他測試集上的字錯率（WER）分別達到1.8/3.3。當將標註數據量減少到一小時時，wav2vec 2.0在100小時子集上的性能優於之前的最優方法，同時使用的標註數據量減少了100倍。僅使用十分鐘的標註數據並在53000小時的未標註數據上進行預訓練，字錯率仍能達到4.8/8.2。這證明了在有限標註數據下進行語音識別的可行性。

原始模型可在https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

🚀 快速開始

本模型可作為獨立的聲學模型對音頻文件進行轉錄，使用方法如下。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高級用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

# 加載LibriSpeech的測試數據集
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

# 加載模型到CUDA設備
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

# 定義預測函數
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

# 對數據集進行預測
result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

# 打印字錯率
print("WER:", wer(result["text"], result["transcription"]))

結果（字錯率）:

"乾淨數據集"	"其他數據集"
1.9	3.9

📄 許可證

本項目採用Apache 2.0許可證。

📚 詳細文檔

屬性	詳情
數據集	librispeech_asr
標籤	語音、音頻、自動語音識別、hf-asr-leaderboard
模型名稱	wav2vec2-large-960h-lv60
測試集（乾淨）字錯率	1.9
測試集（其他）字錯率	3.9