wav2vec2-conformer-rel-pos-large-960h-ft開源語音模型

首頁

Wav2vec2 Conformer Rel Pos Large 960h Ft

由facebook開發

基於16kHz採樣語音音頻的Wav2Vec2-Conformer模型，採用相對位置嵌入技術，在960小時Librispeech數據上預訓練和微調

語音識別

Transformers

英語開源協議:Apache-2.0 #高精度語音識別 #相對位置嵌入 #英語語音處理

下載量 1,038

發布時間 : 4/18/2022

模型概述

這是一個用於自動語音識別(ASR)的Conformer架構模型，支持英語語音轉錄，具有高準確率和低詞錯誤率(WER)

模型特點

相對位置嵌入

採用相對位置嵌入技術，提高了模型對語音序列位置關係的建模能力

高準確率

在LibriSpeech測試集上達到1.85(clean)和3.83(other)的詞錯誤率(WER)

大規模訓練

基於960小時的LibriSpeech語音數據進行預訓練和微調

模型能力

英語語音識別

16kHz音頻處理

長序列語音轉錄

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文字

高準確率的轉錄文本

語音筆記轉換

將語音筆記轉換為可編輯的文本

輔助技術

即時字幕生成

為視頻或直播內容生成即時字幕

🚀 Wav2Vec2-Conformer-Large-960h 帶相對位置嵌入

Wav2Vec2-Conformer 帶有相對位置嵌入，在16kHz採樣的語音音頻上進行了預訓練，並在960小時的Librispeech數據集上進行了微調。使用該模型時，請確保您的語音輸入也是16kHz採樣的。

📚 詳細文檔

論文：fairseq S2T: Fast Speech-to-Text Modeling with fairseq
作者：Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformer的實驗結果可在官方論文的表3和表4中找到。

原始模型可在https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

📦 模型信息

屬性	詳情
模型類型	Wav2Vec2-Conformer-Large-960h 帶相對位置嵌入
訓練數據	LibriSpeech ASR
標籤	語音、音頻、自動語音識別、HF自動語音識別排行榜
許可證	Apache-2.0

📊 評估結果

任務	數據集	指標	值
自動語音識別	LibriSpeech (clean)	測試字錯率 (WER)	1.85
自動語音識別	LibriSpeech (other)	測試字錯率 (WER)	3.83

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ConformerForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-960h-ft")
model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-960h-ft")

# 加載示例數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 進行分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

評估示例

此代碼片段展示瞭如何在LibriSpeech的“clean”和“other”測試數據上評估facebook/wav2vec2-conformer-rel-pos-large-960h-ft。

from datasets import load_dataset
from transformers import Wav2Vec2ConformerForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))