wav2vec2-large-10min-lv60-self開源語音識別模型

首頁

Wav2vec2 Large 10min Lv60 Self

由Splend1dchan開發

該模型是基於Wav2Vec2架構的大規模語音識別模型，在Libri-Light和Librispeech的10分鐘數據上進行了預訓練和微調，使用自訓練目標進行訓練，適用於16kHz採樣率的語音音頻。

語音識別

Transformers

英語開源協議:Apache-2.0 #低資源語音識別 #自監督學習 #16kHz音頻處理

下載量 177

發布時間 : 4/12/2022

模型概述

Wav2Vec2 2.0是一個自動語音識別(ASR)模型，通過從原始語音音頻中學習強大表示，再通過轉錄語音進行微調，實現了在有限標註數據下的高效語音識別。

模型特點

自訓練目標

模型使用自訓練目標進行訓練，提高了在有限標註數據下的性能表現。

低資源語音識別

僅使用10分鐘標註數據和53k小時無標註數據進行預訓練，仍能實現較好的語音識別效果。

潛在空間掩碼

在潛在空間中對語音輸入進行掩碼，並通過對比任務解決潛在表示的量化問題。

模型能力

語音識別

音頻處理

自動語音轉文本

使用案例

語音轉寫

會議記錄

將會議錄音自動轉寫為文字記錄

語音筆記

將語音備忘錄轉換為可搜索的文本

輔助技術

聽力輔助

為聽力障礙人士提供即時語音轉文字服務

🚀 Wav2Vec2-Large-10min-Lv60 + 自訓練

本項目是將模型狀態字典（state_dict）從fairseq直接遷移至Hugging Face，權重保持一致。Facebook的Wav2Vec2 是一個在16kHz採樣的語音音頻上，基於10分鐘的Libri-Light和Librispeech數據進行預訓練和微調的大型模型。該模型採用自訓練目標進行訓練。使用該模型時，請確保輸入的語音也採樣為16kHz。

論文

作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要

他們首次證明，先從純語音音頻中學習強大的表徵，再在轉錄語音上進行微調，這種方法在概念上更簡單的同時，還能超越最佳的半監督方法。wav2vec 2.0在潛在空間中對語音輸入進行掩碼處理，並解決了一個基於潛在表徵量化的對比任務，這些潛在表徵是聯合學習得到的。在Librispeech的所有標註數據上進行實驗，在乾淨/其他測試集上的字錯率（WER）分別達到1.8%/3.3%。當將標註數據量減少到一小時時，wav2vec 2.0在100小時子集上的表現優於之前的最優方法，且使用的標註數據量減少了100倍。僅使用十分鐘的標註數據並在53000小時的未標註數據上進行預訓練，仍能達到4.8%/8.2%的WER。這證明了在有限標註數據下進行語音識別的可行性。

原始模型可在此處找到。

🚀 快速開始

數據集

librispeech_asr

許可證

apache-2.0

模型信息

屬性	詳情
模型類型	Wav2Vec2-Large-10min-Lv60 + 自訓練
訓練數據	10分鐘的Libri-Light和Librispeech數據，採樣率16kHz

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高級用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

# 加載LibriSpeech測試集
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

# 加載模型和處理器，並將模型移至GPU
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")

# 定義映射函數，用於預測轉錄結果
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

# 對測試集進行預測
result = librispeech_eval.map(map_to_pred, remove_columns=["speech"])

# 計算字錯率（WER）
print("WER:", wer(result["text"], result["transcription"]))