🚀 プライムラインのWhisper Tinyドイツ語モデル
このモデルは、OpenAIのWhisperアーキテクチャをベースに、ドイツ語の音声認識に特化して学習されたモデルです。WhisperはOpenAIによって開発された強力な音声認識プラットフォームで、このモデルはそのtinyアーキテクチャを利用しています。
🚀 クイックスタート
このモデルは、以下のコードを使って簡単に使用できます。
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-tiny-german-1224"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])
✨ 主な機能
このモデルは、様々なアプリケーション分野で使用できます。
- ドイツ語の音声を文字起こしする
- 音声コマンドや音声制御を行う
- ドイツ語のビデオに自動字幕を付ける
- ドイツ語の音声検索クエリを行う
- ワードプロセッサでの音声入力機能
📚 ドキュメント
評価 - 単語誤り率
以下は、いくつかのモデルの単語誤り率の比較です。
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| Model | All | Tuda-De | multilingual librispeech | common_voice_19_0 |
+=========================================+=======+===========+============================+=====================+
| openai-whisper-large-v3 | 3.28 | 7.86 | 2.85 | 3.46 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-large-v3-turbo | 3.64 | 8.20 | 3.19 | 3.85 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-medium | 5.49 | 11.13 | 5.04 | 5.53 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| primeline-whisper-tiny-german-1224 | 6.26 | 9.62 | 4.97 | 8.46 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-small | 9.54 | 15.94 | 8.77 | 10.15 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-base | 18.75 | 33.58 | 17.15 | 19.74 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-tiny | 28.80 | 47.33 | 26.47 | 30.76 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
サイズ |
パラメータ数 |
tiny |
39 M |
base |
74 M |
small |
244 M |
medium |
769 M |
large |
1550 M |
large-v2 |
1550 M |
これらの結果は2024年12月に計算されたもので、評価コーパスの更新に伴い変化する可能性があります。最新の結果については、コードとデータセットのページを確認してください。評価用のデータとコードはこちらで入手できます。
学習データ
このモデルの学習データには、様々なソースから収集された大量のドイツ語の音声が含まれています。データは、認識性能を最適化するために慎重に選択され、処理されています。データセットのサイズは、約6000時間の公開データ、独自データ、合成データです。
学習プロセス
このモデルの学習は、以下のハイパーパラメータを使用して行われました。
- バッチサイズ: 32768
- エポック数: 48
- 学習率: 1e-4
- データ拡張: なし
- オプティマイザ: Ademamix
🔧 技術詳細
このモデルは、OpenAIのWhisperアーキテクチャのtinyバージョンをベースに構築されています。Whisperは、Transformerベースの音声認識モデルで、多言語の音声認識に優れた性能を発揮します。このモデルは、ドイツ語の音声認識に特化して学習されており、特定のデータセットとハイパーパラメータを使用して最適化されています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で公開されています。

ドイツにおけるAIインフラストラクチャのパートナーです。ディープラーニング、機械学習、および高性能コンピューティングにおけるあなたの野心を後押しする強力なAIインフラストラクチャを体験してください。AIの学習と推論に最適化されています。
モデルの作成者: Florian Zimmermeister
免責事項
このモデルは、primeLineグループの製品ではありません。これは、[Florian Zimmermeister](https://huggingface.co/flozi00)による研究成果であり、計算資源はprimeLineによって提供されています。このモデルは、primeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。
私たちは、このモデルを可能な限りテストし、開発していますが、エラーが発生する可能性があることにご留意ください。このモデルの使用は、自己責任で行ってください。このモデルによって生成された誤った出力について、私たちは責任を負いません。