wav2vec2_tiny_random開源語音識別模型 - 輕量免費助力測試開發

首頁

Wav2vec2 Tiny Random

由patrickvonplaten開發

一個用於語音識別的輕量級隨機初始化Wav2Vec2模型，主要用於測試和開發目的

語音識別

Transformers

#語音轉文本 #輕量級模型 #CTC損失

下載量 2,988

發布時間 : 3/2/2022

模型概述

這是一個基於Wav2Vec2架構的小型隨機初始化模型，適用於自動語音識別(ASR)任務。模型未經過預訓練，主要用於測試和開發環境。

模型特點

輕量級設計

模型體積小，適合快速測試和原型開發

隨機初始化

模型權重為隨機初始化，未經過預訓練

Wav2Vec2架構

採用先進的Wav2Vec2架構，適合語音處理任務

模型能力

語音識別

音頻特徵提取

使用案例

開發測試

ASR模型開發測試

用於測試語音識別模型的開發流程和框架兼容性

驗證模型接口和基本功能

教學演示

用於演示語音識別模型的基本工作原理

幫助學生理解ASR模型的工作流程

🚀 測試模型

本項目提供了一個測試模型的代碼示例，用於加載數據集、模型，並進行前向傳播和損失計算。

🚀 快速開始

要測試此模型，請運行以下代碼：

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC
import torchaudio
import torch

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2_tiny_random")

def load_audio(batch):
    batch["samples"], _ = torchaudio.load(batch["file"])
    return batch
    
ds = ds.map(load_audio)

input_values = torch.nn.utils.rnn.pad_sequence([torch.tensor(x[0]) for x in ds["samples"][:10]], batch_first=True)

# forward
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)

# dummy loss
dummy_labels = pred_ids.clone()
dummy_labels[dummy_labels == model.config.pad_token_id] = 1  # can't have CTC blank token in label
dummy_labels = dummy_labels[:, -(dummy_labels.shape[1] // 4):] # make sure labels are shorter to avoid "inf" loss (can still happen though...)
loss = model(input_values, labels=dummy_labels).loss

💻 使用示例

基礎用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC
import torchaudio
import torch

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2_tiny_random")

def load_audio(batch):
    batch["samples"], _ = torchaudio.load(batch["file"])
    return batch
    
ds = ds.map(load_audio)

input_values = torch.nn.utils.rnn.pad_sequence([torch.tensor(x[0]) for x in ds["samples"][:10]], batch_first=True)

# forward
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)

# dummy loss
dummy_labels = pred_ids.clone()
dummy_labels[dummy_labels == model.config.pad_token_id] = 1  # can't have CTC blank token in label
dummy_labels = dummy_labels[:, -(dummy_labels.shape[1] // 4):] # make sure labels are shorter to avoid "inf" loss (can still happen though...)
loss = model(input_values, labels=dummy_labels).loss