🚀 whisper-large-v3-turbo-german
このモデルは、Whisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされたもので、ドイツ語の音声を高精度に処理・認識できます。
🚀 クイックスタート
このモデルは、OpenAIによって開発された強力な音声認識プラットフォームであるWhisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされています。ドイツ語の音声を効果的に処理および認識するように特別に最適化されています。
✨ 主な機能
このモデルは、様々なアプリケーション分野で使用できます。
- ドイツ語の音声を文字起こしする
- 音声コマンドや音声制御を行う
- ドイツ語のビデオに自動字幕を付ける
- ドイツ語で音声ベースの検索クエリを行う
- ワードプロセッシングプログラムの音声入力機能
📚 ドキュメント
モデルファミリー
モデル |
パラメータ |
リンク |
Whisper large v3 german |
1.54B |
リンク |
Whisper large v3 turbo german |
809M |
リンク |
Distil-whisper large v3 german |
756M |
リンク |
tiny whisper |
37.8M |
リンク |
評価 - 単語誤り率
データセット |
openai-whisper-large-v3-turbo |
openai-whisper-large-v3 |
primeline-whisper-large-v3-german |
nyrahealth-CrisperWhisper (large) |
primeline-whisper-large-v3-turbo-german |
Tuda-De |
8.300 |
7.884 |
7.711 |
5.148 |
6.441 |
common_voice_19_0 |
3.849 |
3.484 |
3.215 |
1.927 |
3.200 |
multilingual librispeech |
3.203 |
2.832 |
2.129 |
2.815 |
2.070 |
全て |
3.649 |
3.279 |
2.734 |
2.662 |
2.628 |
評価用のデータとコードはこちらで入手できます。
トレーニングデータ
このモデルのトレーニングデータには、様々なソースから収集された大量のドイツ語の音声が含まれています。認識性能を最適化するために、データは慎重に選択され、処理されています。
トレーニングプロセス
モデルのトレーニングは、以下のハイパーパラメータを使用して行われました。
- バッチサイズ: 12288
- エポック数: 3
- 学習率: 1e-6
- データ拡張: なし
- オプティマイザ: Ademamix
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-large-v3-turbo-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で公開されています。
👥 開発者情報
開発者
このモデルは、Florian Zimmermeisterによって開発されました。
開発元

ドイツにおけるAIインフラストラクチャのパートナーです。深層学習、機械学習、および高性能コンピューティングにおける野心を推進する強力なAIインフラストラクチャを体験してください。AIのトレーニングと推論に最適化されています。
免責事項
このモデルは、primeLineグループの製品ではありません。
これは、[Florian Zimmermeister](https://huggingface.co/flozi00)によって行われた研究を表しており、コンピューティングパワーはprimeLineによって提供されています。
このモデルはprimeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。
私たちはこのモデルを可能な限りテストし、開発してきましたが、エラーが発生する可能性があることにご留意ください。
このモデルの使用は自己責任で行ってください。このモデルによって生成された誤った出力に対して、私たちは責任を負いません。