whisper - tiny - viオープンソースベトナム語音声認識モデル - 無料でデプロイでき、高精度にベトナム語音声を認識

ホーム

Whisper Tiny Vi

doof-ferbによって開発

OpenAI Whisper-tinyアーキテクチャをベースにファインチューニングしたベトナム語自動音声認識(ASR)モデルで、複数のベトナム語データセットで優れた性能を発揮

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ベトナム語音声認識 #Whisperファインチューニング #低リソース最適化

ダウンロード数 44

リリース時間 : 2/20/2024

モデル概要

このモデルはベトナム語に最適化された音声認識モデルで、大量のベトナム語音声データでファインチューニングされており、元のWhisper-tinyモデルのベトナム語認識精度を大幅に向上

モデル特徴

ベトナム語最適化

ベトナム語の音声特性に特化してファインチューニングされており、元のモデルと比べてWERが大幅に低減

複数データセットトレーニング

10種類の異なるベトナム語音声データセットを使用してトレーニングされており、様々な音声シナリオをカバー

軽量

Whisper-tinyアーキテクチャをベースとしており、リソースが限られた環境での展開に適している

モデル能力

ベトナム語音声からテキストへの変換

長い音声の文字起こし

リアルタイム音声認識

使用事例

音声文字起こし

ベトナム語動画字幕生成

ベトナム語の動画コンテンツに自動的に字幕を生成

VIVOSテストセットでWERはわずか18.7%

音声アシスタント

ベトナム語音声インタラクションシステムの構築

Common VoiceテストセットでWER 26.6%

教育

言語学習ツール

学習者がベトナム語の発音とリスニングを練習するのを支援

🚀 doof-ferb/whisper-tiny-vi

このモデルは、非常に多くのベトナム語音声データセットを使用してfine-tuningされたWhisper Tinyモデルです。自動音声認識タスクに特化しており、ベトナム語の音声を高精度に認識することができます。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]

✨ 主な機能

多様なベトナム語音声データセットでfine-tuningされているため、高い認識精度を実現しています。
自動音声認識タスクに特化しており、ベトナム語の音声を高精度に認識することができます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import torch
from transformers import pipeline

PIPE = pipeline(task="automatic-speech-recognition", model="doof-ferb/whisper-tiny-vi", device="cuda:0", torch_dtype=torch.float16)
PIPE_KWARGS = {"language": "vi", "task": "transcribe"}

PIPE("audio.mp3", generate_kwargs=PIPE_KWARGS)["text"]

📚 ドキュメント

データセット

このモデルは以下のデータセットを使用して訓練されています。

データセット名
doof-ferb/vlsp2020_vinai_100h
doof-ferb/fpt_fosd
doof-ferb/infore1_25hours
doof-ferb/infore2_audiobooks
quocanh34/viet_vlsp
linhtran92/final_dataset_500hrs_wer0
linhtran92/viet_youtube_asr_corpus_v2
google/fleurs
mozilla-foundation/common_voice_16_1
vivos