whisper-large-v3-persian-common-voice-17オープンソースモデル - ペルシア語の音声認識の精度とロバスト性を向上させる

Whisper Large V3 Persian Common Voice 17

MohammadGholizadehによって開発

Whisper Large v3をベースに微調整されたペルシア語自動音声認識モデルで、Common Voice 17データセットでトレーニングされ、250,000以上のペルシア語音声サンプルを含み、認識精度とロバスト性が大幅に向上しています。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ペルシア語音声認識 #高精度ASR #データ拡張トレーニング

ダウンロード数 978

リリース時間 : 3/15/2025

モデル概要

このモデルはペルシア語向けに最適化された自動音声認識（ASR）モデルで、ペルシア語コミュニティにより正確で信頼性の高い音声認識サービスを提供することを目的としています。

モデル特徴

データ拡張

Common Voice 17データセットを使用して微調整され、250,000以上のペルシア語音声サンプルを含み、単語誤り率（WER）を大幅に低下させました。

モデルの高精度

ペルシア語音声認識タスクで優れた性能を発揮し、ペルシア語コミュニティにより正確で信頼性の高い音声認識サービスを提供します。

モデル能力

ペルシア語音声認識

高精度音声テキスト変換

使用事例

音声テキスト変換

ペルシア語音声文字起こし

ペルシア語の音声をテキストに変換し、音声記録や会議記録などのシーンに適しています。

単語誤り率（WER）は21.43

🚀 Whisper Large v3 - ペルシャ語版 (Common Voice 17)

このモデルは、Whisper Large v3をCommon Voice 17のペルシャ語データセットでファインチューニングしたものです。25万以上のペルシャ語音声サンプルを利用して訓練され、以前のCommon Voice 11で訓練されたモデル（83,000サンプルのみ）よりも大幅に精度が向上しています。これにより、単語誤り率（WER）が低下し、ペルシャ語の音声認識の精度と堅牢性が向上しています。

このアップデートは、ペルシャ語の自動音声認識（ASR）における大きな進歩を意味し、ペルシャ語を話すコミュニティに役立つことを期待しています。

✨ 主な機能

ペルシャ語の自動音声認識に特化したモデル
Common Voice 17の大規模データセットでファインチューニングされ、精度が向上
低い単語誤り率（WER）で、音声認識の精度と堅牢性が高い

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

asr_pipe = pipeline(
    "automatic-speech-recognition",
    model="MohammadGholizadeh/whisper-large-v3-persian-common-voice-17",
    chunk_length_s=30
)

text = asr_pipe("your_file")["text"]
print(text)

📚 ドキュメント

モデル情報

プロパティ	詳細
モデル名	Whisper Large v3 - ペルシャ語 (Common Voice 17)
ベースモデル	Whisper Large v3
言語	ペルシャ語 (Farsi)
データセット	Mozilla Common Voice 17 (ペルシャ語サブセット)
使用ハードウェア	NVIDIA A100 GPU
バッチサイズ	16
訓練ステップ	5000
単語誤り率 (WER)	21.43

注意事項

⚠️ 重要な注意事項

ファインチューニングの過程でタイムスタンプ情報は含まれていないため、このモデルはタイムスタンプを返すことができません。タイムスタンプを返そうとするとエラーが発生します。解決策は、音声ファイルを小さなチャンクに分割することです。さらなるファインチューニングにより、モデルの精度を向上させることができます。現在、ハードウェアとASRデータセットの協力に関するスポンサーを募集しています。

引用

@misc{whisper_persian_cv17,
  author = {Mohammad Sadegh Gholizadeh},
  title = {Whisper Large v3 - Persian (Common Voice 17)},
  year = {2025},
  url = {https://huggingface.co/msghol/whisper-large-v3-persian-common-voice-17}
}