wav2vec2_tiny_random开源语音识别模型 - 轻量免费助力测试开发

首页

Wav2vec2 Tiny Random

由 patrickvonplaten 开发

一个用于语音识别的轻量级随机初始化Wav2Vec2模型，主要用于测试和开发目的

语音识别

Transformers

#语音转文本 #轻量级模型 #CTC损失

下载量 2,988

发布时间 : 3/2/2022

模型简介

这是一个基于Wav2Vec2架构的小型随机初始化模型，适用于自动语音识别(ASR)任务。模型未经过预训练，主要用于测试和开发环境。

模型特点

轻量级设计

模型体积小，适合快速测试和原型开发

随机初始化

模型权重为随机初始化，未经过预训练

Wav2Vec2架构

采用先进的Wav2Vec2架构，适合语音处理任务

模型能力

语音识别

音频特征提取

使用案例

开发测试

ASR模型开发测试

用于测试语音识别模型的开发流程和框架兼容性

验证模型接口和基本功能

教学演示

用于演示语音识别模型的基本工作原理

帮助学生理解ASR模型的工作流程

🚀 测试模型

本项目提供了一个测试模型的代码示例，用于加载数据集、模型，并进行前向传播和损失计算。

🚀 快速开始

要测试此模型，请运行以下代码：

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC
import torchaudio
import torch

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2_tiny_random")

def load_audio(batch):
    batch["samples"], _ = torchaudio.load(batch["file"])
    return batch
    
ds = ds.map(load_audio)

input_values = torch.nn.utils.rnn.pad_sequence([torch.tensor(x[0]) for x in ds["samples"][:10]], batch_first=True)

# forward
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)

# dummy loss
dummy_labels = pred_ids.clone()
dummy_labels[dummy_labels == model.config.pad_token_id] = 1  # can't have CTC blank token in label
dummy_labels = dummy_labels[:, -(dummy_labels.shape[1] // 4):] # make sure labels are shorter to avoid "inf" loss (can still happen though...)
loss = model(input_values, labels=dummy_labels).loss

💻 使用示例

基础用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC
import torchaudio
import torch

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2_tiny_random")

def load_audio(batch):
    batch["samples"], _ = torchaudio.load(batch["file"])
    return batch
    
ds = ds.map(load_audio)

input_values = torch.nn.utils.rnn.pad_sequence([torch.tensor(x[0]) for x in ds["samples"][:10]], batch_first=True)

# forward
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)

# dummy loss
dummy_labels = pred_ids.clone()
dummy_labels[dummy_labels == model.config.pad_token_id] = 1  # can't have CTC blank token in label
dummy_labels = dummy_labels[:, -(dummy_labels.shape[1] // 4):] # make sure labels are shorter to avoid "inf" loss (can still happen though...)
loss = model(input_values, labels=dummy_labels).loss