whisper-medium-idオープンソース音声認識モデル - 無料でデプロイ可能、インドネシア語の認識精度を大幅に向上させます

ホーム

Whisper Medium Id

cahyaによって開発

openai/whisper-mediumをベースに、インドネシア語データセットで微調整した音声認識モデルで、インドネシア語の認識精度が大幅に向上しました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシア語音声認識 #低い単語誤り率 #複数のデータセットでの微調整

ダウンロード数 1,961

リリース時間 : 12/7/2022

モデル概要

このモデルはインドネシア語用に最適化された自動音声認識（ASR）モデルで、複数のインドネシア語データセットで微調整され、単語誤り率（WER）が大幅に低下しました。

モデル特徴

インドネシア語最適化

インドネシア語データセットで特別に微調整され、ベースモデルと比較してインドネシア語の認識精度が大幅に向上しました。

複数のデータセットでの訓練

mozilla - foundation/common_voice_11_0、magic_data、titml、google/fleursなどの複数のインドネシア語データセットを使用して訓練されました。

低い単語誤り率

Common Voice 11テストセットでの単語誤り率（WER）はわずか3.83で、ベースモデルの12.62を大きく上回っています。

モデル能力

インドネシア語音声認識

自動音声文字起こし

句読点の認識をサポート

使用事例

音声文字起こし

インドネシア語会議記録

インドネシア語の会議録音を自動的に文字起こしします。

単語誤り率は3.83まで低下

音声アシスタント

インドネシア語音声アシスタントアプリの音声認識モジュールに使用されます。

🚀 インドネシア語版Whisper Mediumモデル

このモデルは、openai/whisper-medium をベースに、インドネシア語のmozilla-foundation/common_voice_11_0、magic_data、titml、google/fleursデータセットでファインチューニングしたものです。以下の成果を達成しています。

🔍 モデル情報

属性	詳細
モデルタイプ	インドネシア語版 Whisper Medium モデル
訓練データ	mozilla-foundation/common_voice_11_0、magic_data、TITML、google/fleurs
評価指標	WER (単語誤り率)
ベースモデル	openai/whisper-medium

🚀 クイックスタート

このモデルは、インドネシア語のmozilla-foundation/common_voice_11_0、magic_data、titml、google/fleursデータセットでファインチューニングされ、良好な結果を得ています。以下に詳細な使用方法と評価結果を示します。

✨ 主な機能

インドネシア語データセットでファインチューニングされているため、インドネシア語の音声認識により良い結果をもたらします。
具体的な訓練ハイパーパラメータと訓練結果を提供しており、参照や再現が容易です。
モデルを複数のデータセットで評価し、モデルの性能を示しています。

📦 インストール

インストール手順は提供されていません。Hugging Face上の transformers ライブラリのインストール方法を参考にしてください。

💻 使用例

基本的な使用法

from transformers import pipeline
transcriber = pipeline(
  "automatic-speech-recognition", 
  model="cahya/whisper-medium-id"
)
transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="id", 
    task="transcribe"
  )
)
transcription = transcriber("my_audio_file.mp3")

📚 ドキュメント

訓練過程

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率（learning_rate）: 1e-06
訓練バッチサイズ（train_batch_size）: 16
評価バッチサイズ（eval_batch_size）: 16
乱数シード（seed）: 42
オプティマイザ（optimizer）: Adam，β=(0.9, 0.999)，ε=1e-08
学習率スケジューラタイプ（lr_scheduler_type）: 線形
学習率スケジューラウォームアップステップ（lr_scheduler_warmup_steps）: 500
訓練ステップ（training_steps）: 10000
混合精度訓練（mixed_precision_training）: ネイティブAMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率（Wer）
0.0427	0.33	1000	0.0664	4.3807
0.042	0.66	2000	0.0658	3.9426
0.0265	0.99	3000	0.0657	3.8274
0.0211	1.32	4000	0.0679	3.8366
0.0212	1.66	5000	0.0682	3.8412
0.0206	1.99	6000	0.0683	3.8689
0.0166	2.32	7000	0.0711	3.9657
0.0095	2.65	8000	0.0717	3.9980
0.0122	2.98	9000	0.0714	3.9795
0.0049	3.31	10000	0.0720	3.9887

評価

私たちは、Common Voice 11 と Google Fleurs の2つのデータセットのテストセットを使用して、モデルを評価しました。Whisperは大文字と小文字、句読点を識別できるため、生テキストと正規化テキスト（小文字 + 句読点除去）を使用してその性能を評価しました。結果は以下の通りです。

Common Voice 11

モデル	単語誤り率（WER）
cahya/whisper-medium-id	3.83
openai/whisper-medium	12.62

Google/Fleurs

モデル	単語誤り率（WER）
cahya/whisper-medium-id	9.74
cahya/whisper-medium-id + テキスト正規化	未確定
openai/whisper-medium	10.2
openai/whisper-medium + テキスト正規化	未確定