whisper-th-large-v3-combinedオープンソースタイ語音声認識モデル - 低エラー率で高精度にタイ語音声を認識

ホーム

Whisper Th Large V3 Combined

biodatlabによって開発

これはOpenAIのWhisper Large V3モデルをファインチューニングしたタイ語自動音声認識モデルで、Common Voice 13のタイ語テストセットで6.59%の単語誤り率を達成しました。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #タイ語音声認識 #低単語誤り率 #複数データセットのファインチューニング

ダウンロード数 1,354

リリース時間 : 2/20/2024

モデル概要

このモデルはタイ語に最適化された自動音声認識(ASR)モデルで、拡張版Common Voice 13とFLEURSデータセットでファインチューニングされ、タイ語音声の文字起こしタスク専用に設計されています。

モデル特徴

低単語誤り率

Common Voice 13タイ語テストセットでわずか6.59%の単語誤り率(WER)

タイ語最適化

タイ語の音声特性に特化してファインチューニング

混合データセット訓練

Common Voice 13とFLEURSなど複数のデータセットを使用して強化訓練

モデル能力

タイ語音声認識

音声文字起こし

長音声処理(30秒チャンク対応)

使用事例

音声文字起こし

タイ語会議議事録

タイ語会議録音を自動で文字に変換

高精度な文字起こしテキスト

タイ語メディア字幕生成

タイ語動画コンテンツに自動で字幕を生成

🚀 Whisper Large V3 (タイ語): 結合版V1

このモデルは、openai/whisper-medium を、mozilla-foundation/common_voice_13_0 タイ語版、google/fleurs、および精選されたデータセットの拡張版でファインチューニングしたバージョンです。 Common Voice 13のテストセットでは、以下の結果を達成しています。

WER: 6.59 (Deepcutトークナイザー使用時)

🚀 クイックスタート

このモデルは、huggingfaceの transformers を使用して以下のように利用できます。

基本的な使用法

from transformers import pipeline

MODEL_NAME = "biodatlab/whisper-th-large-v3-combined"  # モデル名を指定
lang = "th"  # タイ語に変更

device = 0 if torch.cuda.is_available() else "cpu"

pipe = pipeline(
    task="automatic-speech-recognition",
    model=MODEL_NAME,
    chunk_length_s=30,
    device=device,
)
pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(
  language=lang,
  task="transcribe"
)
text = pipe("audio.mp3")["text"] # オーディオmp3を指定してテキストを文字起こし

📚 ドキュメント

モデルの説明

このモデルは、openai/whisper-medium を、mozilla-foundation/common_voice_13_0 タイ語版、google/fleurs、および精選されたデータセットの拡張版でファインチューニングしたものです。

想定される用途と制限事項

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

learning_rate: 1e-05
train_batch_size: 16
eval_batch_size: 16
seed: 42
optimizer: AdamW (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
training_steps: 10000
mixed_precision_training: Native AMP

フレームワークバージョン

Transformers 4.37.2
Pytorch 2.1.0
Datasets 2.16.1
Tokenizers 0.15.1

引用方法

Bibtexを使用して引用するには、以下のようにします。

@misc {thonburian_whisper_med,
    author       = { Atirut Boribalburephan, Zaw Htet Aung, Knot Pipatsrisawat, Titipat Achakulvisut },
    title        = { Thonburian Whisper: A fine-tuned Whisper model for Thai automatic speech recognition },
    year         = 2022,
    url          = { https://huggingface.co/biodatlab/whisper-th-medium-combined },
    doi          = { 10.57967/hf/0226 },
    publisher    = { Hugging Face }
}

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

プロパティ	詳細
モデルタイプ	Whisper Large V3 (タイ語): 結合版V1
学習データ	mozilla-foundation/common_voice_13_0 th、google/fleurs、および精選されたデータセット
評価指標	WER
ベースモデル	openai/whisper-large-v3