🚀 印尼語版Whisper Medium模型
本模型是基於 openai/whisper-medium 在印尼語的 mozilla-foundation/common_voice_11_0、magic_data、titml 和 google/fleurs 數據集上微調得到的。它取得了以下成果:
🔍 模型信息
屬性 |
詳情 |
模型類型 |
印尼語版 Whisper Medium 模型 |
訓練數據 |
mozilla-foundation/common_voice_11_0、magic_data、TITML、google/fleurs |
評估指標 |
WER (詞錯誤率) |
基礎模型 |
openai/whisper-medium |
🚀 快速開始
本模型在印尼語的 mozilla-foundation/common_voice_11_0、magic_data、titml 和 google/fleurs 數據集上進行了微調,取得了不錯的效果。以下是詳細的使用說明和評估結果。
✨ 主要特性
- 在印尼語數據集上微調,對印尼語語音識別有更好的效果。
- 提供了具體的訓練超參數和訓練結果,方便參考和復現。
- 對模型進行了多數據集的評估,展示了模型的性能。
📦 安裝指南
暫未提供安裝步驟,可參考 Hugging Face 上 transformers
庫的安裝方法。
💻 使用示例
基礎用法
from transformers import pipeline
transcriber = pipeline(
"automatic-speech-recognition",
model="cahya/whisper-medium-id"
)
transcriber.model.config.forced_decoder_ids = (
transcriber.tokenizer.get_decoder_prompt_ids(
language="id",
task="transcribe"
)
)
transcription = transcriber("my_audio_file.mp3")
📚 詳細文檔
預期用途和限制
更多信息待補充。
訓練和評估數據
更多信息待補充。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate): 1e-06
- 訓練批次大小(train_batch_size): 16
- 評估批次大小(eval_batch_size): 16
- 隨機種子(seed): 42
- 優化器(optimizer): Adam,β=(0.9, 0.999),ε=1e-08
- 學習率調度器類型(lr_scheduler_type): 線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps): 500
- 訓練步數(training_steps): 10000
- 混合精度訓練(mixed_precision_training): 原生 AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
0.0427 |
0.33 |
1000 |
0.0664 |
4.3807 |
0.042 |
0.66 |
2000 |
0.0658 |
3.9426 |
0.0265 |
0.99 |
3000 |
0.0657 |
3.8274 |
0.0211 |
1.32 |
4000 |
0.0679 |
3.8366 |
0.0212 |
1.66 |
5000 |
0.0682 |
3.8412 |
0.0206 |
1.99 |
6000 |
0.0683 |
3.8689 |
0.0166 |
2.32 |
7000 |
0.0711 |
3.9657 |
0.0095 |
2.65 |
8000 |
0.0717 |
3.9980 |
0.0122 |
2.98 |
9000 |
0.0714 |
3.9795 |
0.0049 |
3.31 |
10000 |
0.0720 |
3.9887 |
評估
我們使用 Common Voice 11 和 Google Fleurs 兩個數據集的測試集對模型進行了評估。由於 Whisper 可以識別大小寫和標點符號,我們還使用原始文本和歸一化文本(小寫 + 去除標點)對其性能進行了評估。結果如下:
Common Voice 11
Google/Fleurs
框架版本
- Transformers 4.26.0.dev0
- Pytorch 1.13.0+cu117
- Datasets 2.7.1.dev0
- Tokenizers 0.13.2
📄 許可證
本模型使用 Apache-2.0 許可證。