whisper-small-viオープンソース音声認識モデル - 無料でデプロイ可能、ベトナム語の文字起こしの精度と堅牢性を向上させます

ホーム

Whisper Small Vi

namphungdn134によって開発

openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上

音声認識

Transformers

その他オープンソースライセンス:MIT #ベトナム語音声認識 #低単語誤り率 #方言最適化

ダウンロード数 334

リリース時間 : 4/13/2025

モデル概要

ベトナム語に最適化された自動音声認識(ASR)モデルで、音声からテキストへの変換タスクに適しており、特にベトナム語のアクセントや方言に最適化

モデル特徴

ベトナム語最適化

ベトナム語の音声特性に特化してファインチューニングし、方言やアクセントの認識能力を向上

軽量モデル

Whisper小型アーキテクチャを基に、高い精度を維持しながら計算リソース要件を低減

高品質な文字起こし

テストセットで9.3485の単語誤り率(WER)を達成し、優れた性能を発揮

モデル能力

ベトナム語音声認識

音声からテキストへの変換

音声文字起こし

使用事例

音声文字起こし

会議議事録

ベトナム語の会議録音を自動的に文字起こし

90%以上の精度

メディア字幕生成

ベトナム語の動画コンテンツに自動的に字幕を生成

音声アシスタント

ベトナム語音声コマンド認識

ベトナム語のスマートホームやデバイス制御に使用

🚀 Whisper Small Vi V1.1: ナム・フン氏によるベトナム語向けWhisper Smallのファインチューニング版 🚀

このモデルは、ベトナム語の音声データでopenai/whisper-smallモデルをファインチューニングしたものです。モデルの目的は、ベトナム語の自動音声認識（ASR）タスク、特に実世界のシナリオにおける文字起こしの精度と頑健性を向上させることです。

📊 ファインチューニング結果

単語誤り率 (WER): 9.3485

評価は、様々な地域のアクセントと話し方のスタイルを持つホールドアウトテストセットで行われました。

📝 モデルの説明

Whisper smallモデルは、自動音声認識と翻訳タスク用に設計されたトランスフォーマーベースのシーケンス-to-シーケンスモデルです。複数の言語で680,000時間以上のラベル付き音声データで訓練されています。このモデルのファインチューニング版はベトナム語に焦点を当てており、文字起こしの精度と現地の方言の扱いを向上させることを目指しています。

このモデルはWhisperProcessorと連携して、音声入力をログメルスペクトログラムに前処理し、テキストにデコードします。

📁 データセット

総時間: 250時間以上の高品質ベトナム語音声データ
データソース: 公開のベトナム語データセット
フォーマット: 16kHzのWAVファイルと対応するテキストトランスクリプト
前処理: 音声は正規化され、セグメント化されました。トランスクリプトはクリーニングされ、トークン化されました。

🚀 クイックスタート

ファインチューニングされたモデルを使用するには、以下の手順に従ってください。

基本的な使用法

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

高度な使用法

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-small-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

⚠️ 制限事項

このモデルはベトナム語用に特化してファインチューニングされているため、他の言語では性能が低下する可能性があります。
重なり合う音声やノイズの多い背景音に対応するのが難しい場合があります。
訓練データに十分に表現されていない強い方言のバリエーションでは、性能が低下する可能性があります。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 引用

このモデルを研究やアプリケーションで使用する場合は、元のWhisperモデルとこのファインチューニング作業を以下のように引用してください。

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper small Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-small-vi},
  url={https://github.com/namphung134/ASR-Vietnamese}
}