🚀 Whisper Base Vi V1.1: ナム・フン氏によるベトナム語向けWhisper Baseのファインチューニング版 🚀
このモデルは、自動音声認識と翻訳タスクに特化したベトナム語用のモデルです。100時間のベトナム語音声データでファインチューニングされ、ベトナム語の音声認識精度とロバスト性を向上させます。
🚀 クイックスタート
このファインチューニングされたモデルを使用するには、以下のいずれかの方法を選択できます。
方法1: リポジトリへアクセス
https://github.com/namphung134/np-asr-vietnamese へアクセスしてください。
方法2: 手動での使用
以下の手順に従ってください。
-
必要な依存関係をインストールします。
!pip install transformers torch librosa soundfile --quiet
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
print("Environment setup completed!")
-
モデルを推論に使用します。
import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")
audio_path = "example.wav"
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")
print("Generating transcription...")
with torch.no_grad():
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)
print("Predicted IDs:", predicted_ids[0].tolist())
✨ 主な機能
- 高精度な音声認識:100時間のベトナム語音声データでファインチューニングされ、ベトナム語の音声認識精度を向上させます。
- ロバスト性:様々な地域のアクセントや話し方に対応し、実世界のシナリオでも安定した性能を発揮します。
📦 インストール
必要な依存関係をインストールするには、以下のコマンドを実行します。
!pip install transformers torch librosa soundfile --quiet
💻 使用例
上記の「🚀 クイックスタート」のセクションを参照してください。
📚 ドキュメント
📝 概要
このモデルは、openai/whisper-base モデルを100時間のベトナム語音声データでファインチューニングしたものです。ベトナム語の自動音声認識(ASR)タスク、特に実世界のシナリオにおける文字起こしの精度とロバスト性を向上させることを目的としています。
📊 ファインチューニング結果
評価は、多様な地域のアクセントや話し方を持つホールドアウトテストセットで行われました。
📝 モデルの説明
Whisper Baseモデルは、自動音声認識と翻訳タスクに設計されたトランスフォーマーベースのシーケンス-to-シーケンスモデルです。複数の言語で680,000時間以上のラベル付き音声データでトレーニングされています。このモデルのファインチューニング版はベトナム語に特化しており、文字起こしの精度と現地の方言の扱いを向上させることを目指しています。
このモデルは、WhisperProcessorと共に動作し、音声入力をログメルスペクトログラムに前処理し、テキストにデコードします。
📁 データセット
- 総時間:100時間以上の高品質なベトナム語音声データ
- ソース:公開されているベトナム語データセット
- 形式:16kHzのWAVファイルと対応するテキストトランスクリプト
- 前処理:音声は正規化され、セグメント化されました。トランスクリプトはクリーニングされ、トークン化されました。
🔧 技術詳細
このモデルは、トランスフォーマーベースのシーケンス-to-シーケンスモデルであり、自動音声認識と翻訳タスクに最適化されています。多言語のラベル付き音声データでトレーニングされ、ベトナム語に特化したファインチューニングが行われています。
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。
📚 引用
このモデルを研究やアプリケーションで使用する場合は、以下のように元のWhisperモデルとこのファインチューニング作業を引用してください。
@article{Whisper2021,
title={Whisper: A Multilingual Speech Recognition Model},
author={OpenAI},
year={2021},
journal={arXiv:2202.12064},
url={https://arxiv.org/abs/2202.12064}
}
@misc{title={Whisper Base Vi V1.1 - Nam Phung},
author={Nam Phùng},
organization={DUT},
year={2025},
url={https://huggingface.co/namphungdn134/whisper-base-vi}
}
📬 お問い合わせ
質問、協力依頼、または提案がある場合は、[namphungdn134@gmail.com] までお気軽にご連絡ください。