wav2vec2-large-tedlium开源语音识别模型 - 免费实现英语语音精准转文本

首页

Wav2vec2 Large Tedlium

由 sanchit-gandhi 开发

基于TEDLIUM语料库微调的Wav2Vec2大型语音识别模型，支持英语语音转文本

语音识别英语开源协议:Apache-2.0 #TED演讲转录 #高精度语音识别 #英语语音处理

下载量 58

发布时间 : 7/4/2022

模型简介

该模型是基于TEDLIUM语料库微调的Wav2Vec2大型模型，专门用于英语语音识别任务。

模型特点

高精度语音识别

在TEDLIUM测试集上达到8.2%的词错误率(WER)

大规模预训练

基于LibriVox 60,000小时音频预训练

领域适应

在452小时TED演讲数据上进行了微调

模型能力

英语语音识别

长音频处理

16kHz采样率音频处理

使用案例

语音转录

TED演讲转录

将TED演讲音频转换为文本

8.4% WER（开发集）

教育内容转录

将教育讲座和演讲内容转换为文本

🚀 Wav2Vec2-Large-Tedlium

Wav2Vec2-Large-Tedlium 是在 TEDLIUM 语料库上进行微调的大型语音识别模型。它基于预训练的模型，在 TED 演讲数据上进一步优化，能够高效准确地将语音转换为文本。

🚀 快速开始

Wav2Vec2 大型模型在 TEDLIUM 语料库上进行了微调。

该模型使用 Facebook 的 Wav2Vec2 large LV - 60k 检查点进行初始化，该检查点是在 LibriVox 项目的 60,000 小时有声读物上预训练得到的。它在 TEDLIUM 语料库（第 3 版）的 452 小时 TED 演讲上进行了微调。使用该模型时，请确保您的语音输入采样率为 16Khz。

该模型在开发集上的单词错误率（WER）为 8.4%，在测试集上为 8.2%。训练日志记录了 50,000 步微调过程中的训练和评估进度。

有关该模型如何进行微调的更多信息，请参阅此笔记本。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")
model = Wav2Vec2ForCTC.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")

# load dummy dataset
ds = load_dataset("sanchit-gandhi/tedlium_dummy", split="validation")

# process audio inputs
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print("Target: ", ds["text"][0])
print("Transcription: ", transcription[0])

高级用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

tedlium_eval = load_dataset("LIUM/tedlium", "release3", split="test")
model = Wav2Vec2ForCTC.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")
def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch
result = tedlium_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))