whisper-tiny-vi开源越南语语音识别模型 - 免费部署精准识别越南语语音

首页

Whisper Tiny Vi

由 doof-ferb 开发

基于OpenAI Whisper-tiny架构微调的越南语自动语音识别(ASR)模型，在多个越南语数据集上表现出色

语音识别

Transformers

其他开源协议:Apache-2.0 #越南语语音识别 #Whisper微调 #低资源优化

下载量 44

发布时间 : 2/20/2024

模型简介

该模型是针对越南语优化的语音识别模型，通过大量越南语语音数据微调，显著提升了原始Whisper-tiny模型在越南语识别上的准确率

模型特点

越南语优化

专门针对越南语语音特性进行微调，相比原始模型WER显著降低

多数据集训练

使用10个不同的越南语语音数据集进行训练，覆盖多种语音场景

轻量级

基于Whisper-tiny架构，适合资源有限的环境部署

模型能力

越南语语音转文本

长音频转录

实时语音识别

使用案例

语音转录

越南语视频字幕生成

为越南语视频内容自动生成字幕

在VIVOS测试集上WER仅18.7%

语音助手

构建越南语语音交互系统

在Common Voice测试集上WER 26.6%

教育

语言学习工具

帮助学习者练习越南语发音和听力

🚀 doof-ferb/whisper-tiny-vi

本项目是基于大量越南语语音数据集对whisper tiny模型进行微调得到的自动语音识别模型，在多个越南语语音数据集上有较好的表现。

🚀 快速开始

你可以使用以下代码示例来使用本模型进行自动语音识别：

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]

✨ 主要特性

基于openai/whisper-tiny模型进行微调，针对越南语语音数据进行优化。
在多个越南语语音数据集上进行了评估，如Mozilla CommonVoice (Vietnamese) v16.1、Google FLEURS (Vietnamese)和ĐHQG TPHCM VIVOS。
显著降低了单词错误率（WER），相比原始的whisper-tiny模型有更好的性能表现。

📦 安装指南

本项目使用transformers库，你可以通过以下命令安装：

pip install transformers

💻 使用示例

基础用法

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]