whisper-base-viオープンソース音声認識モデル - ベトナム語の文字起こし精度を向上、無料で利用可能

Home

Whisper Base Vi

Developed by namphungdn134

openai/whisper-baseモデルを100時間のベトナム語音声データでファインチューニングした音声認識モデルで、ベトナム語文字起こしの精度を向上

音声認識

Transformers

OtherOpen Source License:MIT #ベトナム語音声認識 #方言最適化 #低単語誤り率

Downloads 215

Release Time : 3/16/2025

Model Overview

ベトナム語に最適化された自動音声認識(ASR)モデルで、音声からテキストへの変換タスクに適しています

Model Features

ベトナム語最適化

ベトナム語の特徴に特化してファインチューニングし、方言やアクセントの認識能力を向上

効率的な推論

Whisperベースアーキテクチャにより、高速な推論速度を維持

実シーン適応

多様な音声データで訓練され、実際のアプリケーションでの頑健性を強化

Model Capabilities

ベトナム語音声認識

音声からテキスト変換

音声文字起こし

Use Cases

音声文字起こし

会議議事録

ベトナム語会議録音を自動で文字記録に変換

単語誤り率16.9148%

メディア字幕生成

ベトナム語動画コンテンツに自動で字幕を生成

🚀 Whisper Base Vi V1.1: ナム・フン氏によるベトナム語向けWhisper Baseのファインチューニング版 🚀

このモデルは、自動音声認識と翻訳タスクに特化したベトナム語用のモデルです。100時間のベトナム語音声データでファインチューニングされ、ベトナム語の音声認識精度とロバスト性を向上させます。

🚀 クイックスタート

このファインチューニングされたモデルを使用するには、以下のいずれかの方法を選択できます。

方法1: リポジトリへアクセス

https://github.com/namphung134/np-asr-vietnamese へアクセスしてください。

方法2: 手動での使用

以下の手順に従ってください。

必要な依存関係をインストールします。

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

# Import necessary libraries
import torch
import librosa
import soundfile as sf
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

print("Environment setup completed!")

モデルを推論に使用します。

import torch
import librosa
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load processor and model
model_id = "namphungdn134/whisper-base-vi"
print(f"Loading model from: {model_id}")
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)

# config language and task
forced_decoder_ids = processor.get_decoder_prompt_ids(language="vi", task="transcribe")
model.config.forced_decoder_ids = forced_decoder_ids
print(f"Forced decoder IDs for Vietnamese: {forced_decoder_ids}")

# Preprocess
audio_path = "example.wav"  
print(f"Loading audio from: {audio_path}")
audio, sr = librosa.load(audio_path, sr=16000)  
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
print(f"Input features shape: {input_features.shape}")

# Generate
print("Generating transcription...")
with torch.no_grad():
   predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("📝 Transcription:", transcription)

# Debug: Print token to check
print("Predicted IDs:", predicted_ids[0].tolist())

✨ 主な機能

高精度な音声認識：100時間のベトナム語音声データでファインチューニングされ、ベトナム語の音声認識精度を向上させます。
ロバスト性：様々な地域のアクセントや話し方に対応し、実世界のシナリオでも安定した性能を発揮します。

📦 インストール

必要な依存関係をインストールするには、以下のコマンドを実行します。

# Install required libraries
!pip install transformers torch librosa soundfile --quiet

💻 使用例

上記の「🚀 クイックスタート」のセクションを参照してください。

📚 ドキュメント

📝 概要

このモデルは、openai/whisper-base モデルを100時間のベトナム語音声データでファインチューニングしたものです。ベトナム語の自動音声認識（ASR）タスク、特に実世界のシナリオにおける文字起こしの精度とロバスト性を向上させることを目的としています。

📊 ファインチューニング結果

単語誤り率（WER）：16.9148

評価は、多様な地域のアクセントや話し方を持つホールドアウトテストセットで行われました。

📝 モデルの説明

Whisper Baseモデルは、自動音声認識と翻訳タスクに設計されたトランスフォーマーベースのシーケンス-to-シーケンスモデルです。複数の言語で680,000時間以上のラベル付き音声データでトレーニングされています。このモデルのファインチューニング版はベトナム語に特化しており、文字起こしの精度と現地の方言の扱いを向上させることを目指しています。

このモデルは、WhisperProcessorと共に動作し、音声入力をログメルスペクトログラムに前処理し、テキストにデコードします。

📁 データセット

総時間：100時間以上の高品質なベトナム語音声データ
ソース：公開されているベトナム語データセット
形式：16kHzのWAVファイルと対応するテキストトランスクリプト
前処理：音声は正規化され、セグメント化されました。トランスクリプトはクリーニングされ、トークン化されました。

🔧 技術詳細

このモデルは、トランスフォーマーベースのシーケンス-to-シーケンスモデルであり、自動音声認識と翻訳タスクに最適化されています。多言語のラベル付き音声データでトレーニングされ、ベトナム語に特化したファインチューニングが行われています。

📄 ライセンス

このモデルは、MITライセンスの下で提供されています。

📚 引用

このモデルを研究やアプリケーションで使用する場合は、以下のように元のWhisperモデルとこのファインチューニング作業を引用してください。

@article{Whisper2021,
  title={Whisper: A Multilingual Speech Recognition Model},
  author={OpenAI},
  year={2021},
  journal={arXiv:2202.12064},
  url={https://arxiv.org/abs/2202.12064}
}

@misc{title={Whisper Base Vi V1.1 - Nam Phung},
  author={Nam Phùng},
  organization={DUT},
  year={2025},
  url={https://huggingface.co/namphungdn134/whisper-base-vi}
}