distil-whisper-large-v3-germanオープンソースのドイツ語音声認識モデル

ホーム

Distil Whisper Large V3 German

primelineによって開発

distil-whisper技術に基づくドイツ語音声認識モデルで、パラメータ数は7.56億、高品質を維持しながらより高速な推論を実現。

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #蒸留モデル #低遅延推論

ダウンロード数 207

リリース時間 : 4/15/2024

モデル概要

ドイツ語音声認識タスク向けに設計された蒸留モデルで、ローカル文字起こしサービスや複雑な音声処理プロセスの統合に適しています。

モデル特徴

効率的な推論

パラメータ数は元の大規模モデルの半分ですが、優れた認識品質を維持し、リアルタイムアプリケーションに適しています。

最適化された互換性

tensorrtなどの最適化ツールキットと組み合わせて使用でき、遅延を大幅に削減します。

データ品質

訓練データは厳密にフィルタリングされ、テキスト正規化処理が施されており、モデル入力の一貫性を確保します。

モデル能力

ドイツ語音声からテキストへの変換

長時間音声処理

タイムスタンプ付き文字起こし

使用事例

音声文字起こしサービス

ローカル文字起こし

ローカルのドイツ語音声文字起こしサービスとして展開

高精度なリアルタイム文字起こし出力

音声処理プロセス

音声分析統合

複雑な音声処理システムの認識コンポーネントとして

ドイツ語音声入力を効率的に処理

🚀 distil-whisper-german

このモデルは、distil-whisper技術に基づくドイツ語音声認識モデルです。モデルの重みは7億5600万個のパラメータを持ち、bfloat16形式で1.51GBのサイズとなっています。

Whisper large v3 germanの後続として、品質の損失を最小限に抑えつつ、より高速な推論を可能にする蒸留バージョンを作成することにしました。

🚀 クイックスタート

このモデルはドイツ語の音声認識タスクに使用されることを想定しています。ローカルの文字起こしサービスとして、または音声認識タスクの大規模パイプラインの一部として利用することができます。大規模モデルの半分のパラメータしか持たないにも関わらず、品質は依然として非常に良好で、ほとんどのタスクに使用できます。tensorrtのような最適化ツールキットを使用すると、低レイテンシでリアルタイムアプリケーションにも使用できます。

✨ 主な機能

ドイツ語の音声認識タスクに最適化されています。
大規模モデルの半分のパラメータで、品質を維持しつつ高速な推論が可能です。
最適化ツールキットを使用すると、リアルタイムアプリケーションにも使用できます。

📦 インストール

このセクションでは、モデルを使用するためのコード例を示します。

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/distil-whisper-large-v3-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

📚 ドキュメント

データセット

学習に使用されたデータセットは、Common Voiceデータセットのフィルタリングされたサブセット、多言語librispeech、およびいくつかの内部データです。データは品質と正確性についてフィルタリングされ、二重チェックされました。テキストデータには、特に大文字小文字と句読点に関していくつかの正規化を行いました。

モデルファミリー

モデル	パラメータ	リンク
Whisper large v3 german	15.4億	リンク
Whisper large v3 turbo german	8.09億	リンク
Distil-whisper large v3 german	7.56億	リンク
tiny whisper	3780万	リンク

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 3e-05
総学習バッチサイズ: 512
エポック数: 5.0

フレームワークバージョン

Transformers 4.39.3
Pytorch 2.3.0a0+ebedce2
Datasets 2.18.0
Tokenizers 0.15.2

🔧 技術詳細

このモデルは、品質の損失を最小限に抑えつつ、より高速な推論を可能にするために、distil-whisper技術を用いて蒸留されています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で公開されています。

私たちについて

ドイツにおけるAIインフラストラクチャのパートナーです。

ディープラーニング、機械学習、および高性能コンピューティングにおける野心を推進する強力なAIインフラストラクチャを体験してください。

AIの学習と推論に最適化されています。

モデルの作成者: Florian Zimmermeister

免責事項

このモデルはprimeLineグループの製品ではありません。

これは[Florian Zimmermeister](https://huggingface.co/flozi00)による研究成果であり、計算資源はprimeLineによって提供されています。

このモデルはprimeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。

私たちはこのモデルを可能な限りテストし開発していますが、エラーが発生する可能性があることにご留意ください。

このモデルの使用は自己責任です。このモデルによって生成された誤った出力に対して、私たちは責任を負いません。