🚀 Whisper Medium (泰語):Combined V3
このモデルは、openai/whisper-medium をベースに、拡張版の mozilla-foundation/common_voice_13_0 泰語データセット、google/fleurs データセット、および選択されたデータセットで微調整されたものです。common-voice-13 テストセットでは、以下の成績を達成しています。
- 単語誤り率(WER):7.42(Deepcut 形態素解析器を使用)
🚀 クイックスタート
モデルの説明
huggingface の transformers
ライブラリを使用して、以下のようにこのモデルを使用することができます。
from transformers import pipeline
MODEL_NAME = "biodatlab/whisper-th-medium-combined"
lang = "th"
device = 0 if torch.cuda.is_available() else "cpu"
pipe = pipeline(
task="automatic-speech-recognition",
model=MODEL_NAME,
chunk_length_s=30,
device=device,
)
pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(
language=lang,
task="transcribe"
)
text = pipe("audio.mp3")["text"]
💻 使用例
基本的な使用法
from transformers import pipeline
MODEL_NAME = "biodatlab/whisper-th-medium-combined"
lang = "th"
device = 0 if torch.cuda.is_available() else "cpu"
pipe = pipeline(
task="automatic-speech-recognition",
model=MODEL_NAME,
chunk_length_s=30,
device=device,
)
pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(
language=lang,
task="transcribe"
)
text = pipe("audio.mp3")["text"]
高度な使用法
高度な使用法の例は現在提供されていません。
🔧 技術詳細
学習ハイパーパラメータ
学習中には以下のハイパーパラメータが使用されました。
- 学習率(learning_rate):1e-05
- 学習バッチサイズ(train_batch_size):16
- 評価バッチサイズ(eval_batch_size):16
- 乱数シード(seed):42
- オプティマイザ(optimizer):AdamW、betas=(0.9, 0.999)、epsilon=1e-08
- 学習率スケジューラの種類(lr_scheduler_type):線形
- 学習率スケジューラのウォームアップステップ数(lr_scheduler_warmup_steps):500
- 学習ステップ数(training_steps):10000
- 混合精度学習(mixed_precision_training):ネイティブ自動混合精度(Native AMP)
フレームワークのバージョン
- Transformers 4.37.2
- Pytorch 2.1.0
- Datasets 2.16.1
- Tokenizers 0.15.1
📄 ライセンス
このモデルは Apache-2.0 ライセンスで提供されています。
📚 ドキュメント
引用
BibTeX を使用して引用するには、以下のようにします。
@misc {thonburian_whisper_med,
author = { Atirut Boribalburephan, Zaw Htet Aung, Knot Pipatsrisawat, Titipat Achakulvisut },
title = { Thonburian Whisper: A fine-tuned Whisper model for Thai automatic speech recognition },
year = 2022,
url = { https://huggingface.co/biodatlab/whisper-th-medium-combined },
doi = { 10.57967/hf/0226 },
publisher = { Hugging Face }
}
情報テーブル
属性 |
詳細 |
モデルタイプ |
微調整された Whisper モデル、泰語の自動音声認識用 |
学習データ |
mozilla-foundation/common_voice_13_0、google/fleurs、および選択されたデータセット |