wav2vec2-large-vi-vlsp2020开源越南语语音识别模型

首页

Wav2vec2 Large Vi Vlsp2020

由 nguyenvulebinh 开发

基于wav2vec2架构的越南语自动语音识别模型，预训练使用1.3万小时未标注YouTube音频，并在250小时标注数据上微调

语音识别

Transformers

其他#越南语语音识别 #高精度WER #5-gram语言模型优化

下载量 385

发布时间 : 11/4/2022

模型简介

该模型专为越南语语音识别任务设计，支持16kHz采样率的音频输入，可输出转录文本。包含基础版和大型版两个版本，支持结合语言模型提升识别准确率。

模型特点

大规模预训练

使用1.3万小时越南语YouTube音频进行预训练，学习丰富的语音特征表示

领域微调

在VLSP ASR数据集的250小时标注数据上进行微调，优化越南语识别性能

语言模型集成

支持结合5-gram语言模型，显著降低词错误率（WER）

高性能表现

在VLSP T1测试集上达到5.32%的词错误率（使用语言模型时）

模型能力

越南语语音识别

音频转录

支持16kHz采样率音频处理

使用案例

语音转录

越南语会议记录

将越南语会议录音自动转录为文字记录

准确率超过93%（使用语言模型时）

媒体字幕生成

为越南语视频内容自动生成字幕

语音助手

越南语语音指令识别

用于越南语语音助手的前端语音识别模块

🚀 越南语自动语音识别模型

本项目提供了基于wav2vec2架构的越南语自动语音识别模型，该模型在大量越南语音频数据上进行预训练和微调，能有效实现语音到文本的转换，为越南语语音处理提供了强大的工具。

🚀 快速开始

你可以点击下面的链接在Colab中快速体验模型：

✨ 主要特性

架构先进：采用wav2vec2架构，在语音识别任务中表现出色。
数据丰富：在13000小时的越南语YouTube音频（无标签数据）上进行预训练，并在250小时标注的VLSP ASR数据集上进行微调。
效果优异：在VLSP T1测试集上取得了较低的字错率（WER）。

📦 安装指南

在使用模型前，你需要安装以下依赖库：

#pytorch
#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

💻 使用示例

基础用法

from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch

# Load model & processor
model_name = "nguyenvulebinh/wav2vec2-large-vi-vlsp2020"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# Load an example audio (16k)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="t2_0000006682.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')

# Infer
output = model(**input_data)

# Output transcript without LM
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))

# Output transcript with LM
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)