Wav2Vec2開源語音識別模型 - 免費支持英語語音轉錄，高效實用！

首頁

Assignment1 Omar

由Classroom-workshop開發

Wav2Vec2是一個基於自監督學習的語音識別模型，在LibriSpeech 960小時語音數據上預訓練和微調，支持英語語音轉錄。

語音識別

Transformers

英語開源協議:Apache-2.0 #英語語音識別 #高精度WER #LibriSpeech微調

下載量 28

發布時間 : 6/2/2022

模型概述

該模型通過從原始語音音頻中學習強大表示，再通過轉錄語音進行微調，實現了高效的自動語音識別。

模型特點

自監督學習

通過從原始語音音頻中學習表示，減少對大量標註數據的依賴。

高效微調

在有限標註數據下仍能實現高性能語音識別。

多場景適用

在乾淨和嘈雜語音環境下均表現良好。

模型能力

英語語音識別

音頻轉錄

語音轉文本

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文本

字幕生成

為視頻內容生成字幕

語音助手

語音指令識別

識別用戶語音指令

🚀 Wav2Vec2-Base-960h

Wav2Vec2-Base-960h是一個基於語音音頻的預訓練模型，在960小時的Librispeech數據集上進行了預訓練和微調。它可用於自動語音識別任務，能將語音音頻準確轉錄為文本。

基本信息

屬性	詳情
模型類型	Wav2Vec2-Base-960h
訓練數據	Librispeech（16kHz採樣的語音音頻）
標籤	音頻、自動語音識別、HF自動語音識別排行榜
許可證	Apache-2.0

示例音頻

模型評估結果

任務	數據集	指標	值
自動語音識別	LibriSpeech (clean)	測試字錯誤率（Test WER）	3.4
自動語音識別	LibriSpeech (other)	測試字錯誤率（Test WER）	8.6

作者

Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

論文摘要

我們首次證明，僅從語音音頻中學習強大的表徵，然後在轉錄語音上進行微調，能夠在概念上更簡單的同時，超越最佳的半監督方法。wav2vec 2.0在潛在空間中對語音輸入進行掩碼，並解決了一個基於潛在表徵量化的對比任務，這些潛在表徵是聯合學習的。使用Librispeech的所有標註數據進行的實驗在乾淨/其他測試集上實現了1.8/3.3的字錯誤率（WER）。當將標註數據量減少到一小時時，wav2vec 2.0在100小時子集上超越了先前的最優方法，同時使用的標註數據減少了100倍。僅使用十分鐘的標註數據並在53000小時的未標註數據上進行預訓練，仍能實現4.8/8.2的字錯誤率。這證明了在有限標註數據下進行語音識別的可行性。

原模型地址

https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20

🚀 快速開始

在使用該模型時，請確保您的語音輸入也是以16kHz採樣的。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch

# 加載模型和分詞器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

# 加載示例數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 進行分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

評估用法

此代碼片段展示瞭如何在LibriSpeech的“clean”和“other”測試數據上評估 facebook/wav2vec2-base-960h 模型。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))