wav2vec2-large-100h-lv60-self開源語音識別模型 - 免費部署用於語音精準識別

首頁

Wav2vec2 Large 100h Lv60 Self

由Splend1dchan開發

Wav2Vec2-Large-100h-Lv60是基於100小時Libri-Light和Librispeech語音數據預訓練和微調的大模型，採用自訓練目標訓練，適用於16kHz採樣率的語音識別任務。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督語音識別 #低資源語音處理 #高精度語音轉寫

下載量 17

發布時間 : 4/12/2022

模型概述

該模型是一個自動語音識別(ASR)模型，通過自監督學習從原始音頻中學習語音表徵，並在有限標註數據下實現高性能語音識別。

模型特點

自監督學習

採用自訓練目標進行訓練，能夠在有限標註數據下學習有效的語音表徵

高效語音識別

在Librispeech數據集上實現了較低的詞錯誤率(WER)

低資源適應

即使在僅有10分鐘標註數據的情況下，也能實現可接受的識別效果

模型能力

語音識別

音頻特徵提取

英語語音轉錄

使用案例

語音轉文字

會議記錄

將英語會議錄音自動轉錄為文字記錄

播客轉錄

將英語播客內容自動轉換為文字稿

語音助手

語音命令識別

識別和理解英語語音命令

🚀 Wav2Vec2-Large-100h-Lv60 + 自訓練

這是一個從fairseq直接遷移到Hugging Face的state_dict，權重完全相同。該模型基於Facebook的Wav2Vec2架構，在100小時的Libri-Light和Librispeech 16kHz採樣語音音頻上進行了預訓練和微調，並採用自訓練目標進行訓練。

🚀 快速開始

本模型是在100小時的Libri-Light和Librispeech 16kHz採樣語音音頻上進行預訓練和微調的大模型。模型使用自訓練目標進行訓練。使用模型時，請確保您的語音輸入也是16kHz採樣的。

論文鏈接

作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要

他們首次證明，僅從語音音頻中學習強大的表示，然後在轉錄語音上進行微調，在概念上更簡單的同時，還能超越最佳的半監督方法。wav2vec 2.0在潛在空間中對語音輸入進行掩碼處理，並解決了一個基於聯合學習的潛在表示量化定義的對比任務。使用Librispeech所有標註數據的實驗在乾淨/其他測試集上實現了1.8/3.3的字錯率（WER）。當將標註數據量減少到一小時時，wav2vec 2.0在100小時子集上超越了先前的最優結果，同時使用的標註數據減少了100倍。僅使用十分鐘的標註數據並在53000小時的未標註數據上進行預訓練，仍能實現4.8/8.2的WER。這證明了在有限標註數據下進行語音識別的可行性。

原始模型可在https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

📦 安裝指南

文檔未提及具體安裝步驟，可參考Hugging Face的相關文檔進行模型和依賴庫的安裝。

💻 使用示例

基礎用法

以下代碼展示瞭如何將該模型作為獨立的聲學模型來轉錄音頻文件：

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 進行分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高級用法

以下代碼片段展示瞭如何在LibriSpeech的“乾淨”和“其他”測試數據上評估Facebook的 Splend1dchan/wav2vec2-large-100h-lv60-self 模型：

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch
result = librispeech_eval.map(map_to_pred, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))

📄 許可證

本項目採用Apache 2.0許可證。

📋 模型信息

屬性	詳情
數據集	librispeech_asr
標籤	語音、音頻、自動語音識別、HF自動語音識別排行榜
模型名稱	wav2vec2-large-100h-lv60
任務	自動語音識別
測試集	Librispeech (clean)
指標	測試字錯率（Test WER）
指標值	暫無