whisper-medium-mlオープンソース音声認識モデル - 無料でマラヤーラム語の自動音声認識を実現

ホーム

Whisper Medium Ml

thennalによって開発

OpenAI Whisper-mediumをファインチューニングしたマラヤーラム語自動音声認識モデル、Common Voice 11.0などのデータセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #マラヤーラム語ASR #低単語誤り率 #複数データセットのファインチューニング

ダウンロード数 127

リリース時間 : 12/12/2022

モデル概要

このモデルはマラヤーラム語に最適化された自動音声認識(ASR)システムで、Whisper-mediumアーキテクチャをベースにファインチューニングされており、高精度な音声から文字への変換機能をサポート

モデル特徴

複数データセットトレーニング

Common Voice 11.0、Fleursおよび複数のマラヤーラム語専用データセットを統合してトレーニング

最適化された誤り率

Common Voiceテストセットで11.49の単語誤り率(WER)を達成

標準化処理

マラヤーラム語の特性に合わせてテキスト標準化処理プロセスを最適化

モデル能力

マラヤーラム語音声認識

長音声処理（30秒チャンクをサポート）

タイムスタンプ付き書き起こし（オプション）

使用事例

音声書き起こし

音声コンテンツの書き起こし

マラヤーラム語の音声コンテンツを文字に変換

テストセットで88.51%の単語認識精度を達成

支援ツール

アクセシビリティアプリケーション

聴覚障害者向けにリアルタイム字幕生成を提供

🚀 Whisper Medium Malayalam

このモデルは、Common Voice 11.0データセットでopenai/whisper-mediumをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

WER: 38.6207
CER: 7.3256

なお、Whisperの正規化はマラヤーラム語のような言語に対して重大な問題があるため、上記のスコアは正規化を使用せずに評価されています。正規化を使用した場合（このプラットフォーム上の他のモデルとの公平な比較のため）、結果は次の通りです。

WER: 11.49

このColabを起点として、モデルをさらにファインチューニングすることができます。

🚀 クイックスタート

このモデルは、Common Voice 11.0データセットを使ってopenai/whisper-mediumをファインチューニングしたもので、音声認識タスクに使用できます。

✨ 主な機能

Common Voice 11.0データセットでファインチューニングされたモデル。
音声認識タスクでの評価結果が提供されている。
コード例を使って簡単に音声の文字起こしができる。

💻 使用例

基本的な使用法

与えられた音声サンプルaudio（numpy配列からファイルパスまで何でも可）に対して、以下のコードで文字起こしを行います。

from transformers import pipeline, WhisperProcessor

processor = WhisperProcessor.from_pretrained("thennal/whisper-medium-ml")
forced_decoder_ids = processor.get_decoder_prompt_ids(language="ml", task="transcribe")
asr = pipeline(
        "automatic-speech-recognition", model="thennal/whisper-medium-ml", device=0,
    )
transcription = asr(audio, chunk_length_s=30, max_new_tokens=448, return_timestamps=False,  generate_kwargs={
        "forced_decoder_ids": forced_decoder_ids, 
        "do_sample": True,
    })

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 1e-05
train_batch_size: 32
eval_batch_size: 16
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
training_steps: 8000
mixed_precision_training: Native AMP

フレームワークバージョン

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

Property	Details
Model Type	Whisper Medium Malayalam
Training Data	mozilla-foundation/common_voice_11_0, google/fleurs, thennal/IMaSC, thennal/ulca_ml, thennal/msc, thennal/indic_tts_ml
Tags	whisper-event, generated_from_trainer
Metrics	wer
Base Model	openai/whisper-medium