whisper-tiny-vi開源越南語語音識別模型 - 免費部署精準識別越南語語音

首頁

Whisper Tiny Vi

由doof-ferb開發

基於OpenAI Whisper-tiny架構微調的越南語自動語音識別(ASR)模型，在多個越南語數據集上表現出色

語音識別

Transformers

其他開源協議:Apache-2.0 #越南語語音識別 #Whisper微調 #低資源優化

下載量 44

發布時間 : 2/20/2024

模型概述

該模型是針對越南語優化的語音識別模型，通過大量越南語語音數據微調，顯著提升了原始Whisper-tiny模型在越南語識別上的準確率

模型特點

越南語優化

專門針對越南語語音特性進行微調，相比原始模型WER顯著降低

多數據集訓練

使用10個不同的越南語語音數據集進行訓練，覆蓋多種語音場景

輕量級

基於Whisper-tiny架構，適合資源有限的環境部署

模型能力

越南語語音轉文本

長音頻轉錄

即時語音識別

使用案例

語音轉錄

越南語視頻字幕生成

為越南語視頻內容自動生成字幕

在VIVOS測試集上WER僅18.7%

語音助手

構建越南語語音交互系統

在Common Voice測試集上WER 26.6%

教育

語言學習工具

幫助學習者練習越南語發音和聽力

🚀 doof-ferb/whisper-tiny-vi

本項目是基於大量越南語語音數據集對whisper tiny模型進行微調得到的自動語音識別模型，在多個越南語語音數據集上有較好的表現。

🚀 快速開始

你可以使用以下代碼示例來使用本模型進行自動語音識別：

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]

✨ 主要特性

基於openai/whisper-tiny模型進行微調，針對越南語語音數據進行優化。
在多個越南語語音數據集上進行了評估，如Mozilla CommonVoice (Vietnamese) v16.1、Google FLEURS (Vietnamese)和ĐHQG TPHCM VIVOS。
顯著降低了單詞錯誤率（WER），相比原始的whisper-tiny模型有更好的性能表現。

📦 安裝指南

本項目使用transformers庫，你可以通過以下命令安裝：

pip install transformers

💻 使用示例

基礎用法

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]