whisper-large-v3-persian-common-voice-17オープンソースモデル - ペルシャ語の自動音声認識精度を向上させる

ホーム

Whisper Large V3 Persian Common Voice 17

msgholによって開発

Whisper Large v3をベースにファインチューニングしたペルシア語自動音声認識モデルで、Common Voice 17データセットで訓練されており、ペルシア語の認識精度が大幅に向上しています。

音声認識

Transformers

その他オープンソースライセンス:MIT #ペルシア語音声認識 #大規模データセットのファインチューニング #低単語誤り率

ダウンロード数 442

リリース時間 : 3/15/2025

モデル概要

これはペルシア語に特化して最適化された自動音声認識モデルで、OpenAIのWhisper Large v3アーキテクチャを基にしており、Mozilla Common Voice 17のペルシア語サブセットでファインチューニングされています。

モデル特徴

大規模データ訓練

25万以上のペルシア語音声サンプルで訓練されており、以前のバージョン(8.3万サンプル)と比べて認識精度が大幅に向上しています

低単語誤り率

ペルシア語音声認識において21.43の単語誤り率(WER)を達成しました

専門的な最適化

ペルシア語の特性に特化して最適化されており、この言語の認識精度と頑健性が向上しています

モデル能力

ペルシア語音声認識

長い音声処理(30秒のチャンクに対応)

使用事例

音声からテキストへ

ペルシア語会議議事録

ペルシア語の会議録音を自動的にテキスト記録に変換します

精度が向上し、単語誤り率が低下しました

ペルシア語メディア字幕生成

ペルシア語の動画コンテンツに自動的に字幕を生成します

字幕制作の効率が向上しました

🚀 Whisper Large v3 - Persian (Common Voice 17)

このモデルは、Whisper Large v3をCommon Voice 17のデータセットでファインチューニングしたものです。25万以上のペルシャ語の音声サンプルを利用しており、Common Voice 11で学習した以前のモデルよりも大幅に精度が向上しています。これにより、モデルの単語誤り率（WER）が低下し、ペルシャ語の音声認識の精度と堅牢性が向上しています。

🚀 クイックスタート

このモデルは、ペルシャ語の自動音声認識に使用できます。以下のコード例を参考に、モデルを使用してみましょう。

✨ 主な機能

Common Voice 17のデータセットを使用してファインチューニングされたWhisper Large v3モデルで、ペルシャ語の音声認識精度が向上しています。
ペルシャ語の音声認識に特化したモデルで、高品質な音声認識を提供します。

📦 インストール

このモデルはtransformersライブラリを使用しています。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

asr_pipe = pipeline(
    "automatic-speech-recognition",
    model="msghol/whisper-large-v3-persian-common-voice-17",
    chunk_length_s=30
)

text = asr_pipe("your_file")["text"]
print(text)

📚 ドキュメント

モデル情報

属性	詳情
モデル名	Whisper Large v3 - Persian (Common Voice 17)
ベースモデル	Whisper Large v3
言語	ペルシャ語 (Farsi)
データセット	Mozilla Common Voice 17 (Persian subset)
使用ハードウェア	NVIDIA A100 GPU
バッチサイズ	16
トレーニングステップ	5000
単語誤り率 (WER)	21.43

注意事項

⚠️ 重要提示

微調整プロセスにはタイムスタンプが含まれていないため、モデルはタイムスタンプを返すことができません。タイムスタンプを返そうとすると、エラーが発生します。解決策は、音声ファイルを小さなチャンクに分割することです。さらなる微調整は、モデルの精度を確実に向上させます。現在、ハードウェアとASRデータセットのコラボレーションのためのスポンサーシップを探しています。

引用

@misc{whisper_persian_cv17,
  author = {Mohammad Sadegh Gholizadeh},
  title = {Whisper Large v3 - Persian (Common Voice 17)},
  year = {2025},
  url = {https://huggingface.co/msghol/whisper-large-v3-persian-common-voice-17}
}