🚀 distil-whisper-german
このモデルは、distil-whisper技術に基づくドイツ語音声認識モデルです。モデルの重みは7億5600万個のパラメータを持ち、bfloat16形式で1.51GBのサイズとなっています。
Whisper large v3 germanの後続として、品質の損失を最小限に抑えつつ、より高速な推論を可能にする蒸留バージョンを作成することにしました。
🚀 クイックスタート
このモデルはドイツ語の音声認識タスクに使用されることを想定しています。ローカルの文字起こしサービスとして、または音声認識タスクの大規模パイプラインの一部として利用することができます。大規模モデルの半分のパラメータしか持たないにも関わらず、品質は依然として非常に良好で、ほとんどのタスクに使用できます。tensorrtのような最適化ツールキットを使用すると、低レイテンシでリアルタイムアプリケーションにも使用できます。
✨ 主な機能
- ドイツ語の音声認識タスクに最適化されています。
- 大規模モデルの半分のパラメータで、品質を維持しつつ高速な推論が可能です。
- 最適化ツールキットを使用すると、リアルタイムアプリケーションにも使用できます。
📦 インストール
このセクションでは、モデルを使用するためのコード例を示します。
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/distil-whisper-large-v3-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])
📚 ドキュメント
データセット
学習に使用されたデータセットは、Common Voiceデータセットのフィルタリングされたサブセット、多言語librispeech、およびいくつかの内部データです。データは品質と正確性についてフィルタリングされ、二重チェックされました。テキストデータには、特に大文字小文字と句読点に関していくつかの正規化を行いました。
モデルファミリー
モデル |
パラメータ |
リンク |
Whisper large v3 german |
15.4億 |
リンク |
Whisper large v3 turbo german |
8.09億 |
リンク |
Distil-whisper large v3 german |
7.56億 |
リンク |
tiny whisper |
3780万 |
リンク |
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 3e-05
- 総学習バッチサイズ: 512
- エポック数: 5.0
フレームワークバージョン
- Transformers 4.39.3
- Pytorch 2.3.0a0+ebedce2
- Datasets 2.18.0
- Tokenizers 0.15.2
🔧 技術詳細
このモデルは、品質の損失を最小限に抑えつつ、より高速な推論を可能にするために、distil-whisper技術を用いて蒸留されています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で公開されています。

ドイツにおけるAIインフラストラクチャのパートナーです。
ディープラーニング、機械学習、および高性能コンピューティングにおける野心を推進する強力なAIインフラストラクチャを体験してください。
AIの学習と推論に最適化されています。
モデルの作成者: Florian Zimmermeister
免責事項
このモデルはprimeLineグループの製品ではありません。
これは[Florian Zimmermeister](https://huggingface.co/flozi00)による研究成果であり、計算資源はprimeLineによって提供されています。
このモデルはprimeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。
私たちはこのモデルを可能な限りテストし開発していますが、エラーが発生する可能性があることにご留意ください。
このモデルの使用は自己責任です。このモデルによって生成された誤った出力に対して、私たちは責任を負いません。