🚀 whisper-large-v3-turbo-german
このモデルは、ドイツ語の音声認識用にファインチューニングされたWhisper Large v3ベースの音声認識モデルです。OpenAIによって開発されたWhisperは強力な音声認識プラットフォームで、このモデルはドイツ語の音声処理と認識に特化して最適化されています。
🚀 クイックスタート
このモデルはCTranslate2 Translationであり、faster-whisperなどのCTranslate準拠のフレームワークで使用できます。ファインチューニング方法や使用したデータセットに関する質問は、元のリポジトリ primeline/whisper-large-v3-turbo-german を参照してください。
✨ 主な機能
概要
このモデルは、OpenAIによって開発された強力な音声認識プラットフォームであるWhisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされたモデルに関する情報を提供します。このモデルは、ドイツ語の音声の処理と認識に特に最適化されています。
応用分野
このモデルは、以下を含む様々なアプリケーション分野で使用できます。
- ドイツ語の音声文字起こし
- 音声コマンドと音声制御
- ドイツ語のビデオの自動字幕付け
- ドイツ語の音声ベースの検索クエリ
- ワードプロセッシングプログラムの音声入力機能
📚 ドキュメント
モデルファミリー
モデル |
パラメータ |
リンク |
Whisper large v3 german |
1.54B |
リンク |
Whisper large v3 turbo german |
809M |
リンク |
Distil-whisper large v3 german |
756M |
リンク |
tiny whisper |
37.8M |
リンク |
評価 - 単語誤り率 (WER)
データセット |
openai-whisper-large-v3-turbo |
openai-whisper-large-v3 |
primeline-whisper-large-v3-german |
nyrahealth-CrisperWhisper (large) |
primeline-whisper-large-v3-turbo-german |
Tuda-De |
8.300 |
7.884 |
7.711 |
5.148 |
6.441 |
common_voice_19_0 |
3.849 |
3.484 |
3.215 |
1.927 |
3.200 |
multilingual librispeech |
3.203 |
2.832 |
2.129 |
2.815 |
2.070 |
全て |
3.649 |
3.279 |
2.734 |
2.662 |
2.628 |
評価用のデータとコードは こちら で入手できます。
学習データ
このモデルの学習データには、様々なソースから収集された大量のドイツ語の音声が含まれています。データは認識性能を最適化するために慎重に選択され、処理されています。
学習プロセス
モデルの学習は、以下のハイパーパラメータで行われました。
- バッチサイズ: 12288
- エポック数: 3
- 学習率: 1e-6
- データ拡張: なし
- オプティマイザー: Ademamix
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-large-v3-turbo-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
👥 私たちについて

ドイツにおけるAIインフラストラクチャのパートナーです。
ディープラーニング、機械学習、高性能コンピューティングにおけるあなたの野心を後押しする強力なAIインフラストラクチャを体験してください。AIの学習と推論に最適化されています。
モデルの作成者: Florian Zimmermeister