whisper-large-v3-turbo-germanオープンソースモデル - ドイツ語の音声処理と認識に特化して最適化されています

ホーム

Whisper Large V3 Turbo German

primelineによって開発

Whisper Large v3を基にしたドイツ語音声認識のファインチューニングモデルで、ドイツ語音声処理と認識に特化して最適化されています。

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #低い単語誤り率 #多様なシナリオでの文字起こし

ダウンロード数 2,777

リリース時間 : 10/2/2024

モデル概要

このモデルはOpenAI Whisper Large v3のドイツ語最適化バージョンで、ドイツ語音声認識タスクに焦点を当て、低い単語誤り率を実現しています。

モデル特徴

最適化されたドイツ語認識

ドイツ語音声認識に特化してファインチューニングされており、ドイツ語認識の精度が大幅に向上しています。

低い単語誤り率

複数のドイツ語テストデータセットで優れた性能を発揮し、総合的な単語誤り率はわずか2.628%です。

効率的な推論

フルバージョンのモデルと比較してパラメータ数が少ないながらも、高い認識精度を維持しています。

モデル能力

ドイツ語音声認識

音声からテキストへの変換

長時間音声処理

タイムスタンプ生成

使用事例

文字起こしサービス

ドイツ語スピーチ文字起こし

ドイツ語の音声コンテンツを自動的にテキストに変換

高精度な文字起こし結果

動画字幕生成

ドイツ語動画の自動字幕生成

同期したタイムスタンプと正確なテキスト

人間とコンピュータの相互作用

音声コマンド認識

ドイツ語の音声コマンドを認識

迅速かつ正確なコマンド認識

音声検索

ドイツ語の音声検索クエリを処理

正確なクエリテキスト変換

🚀 whisper-large-v3-turbo-german

このモデルは、Whisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされたもので、ドイツ語の音声を高精度に処理・認識できます。

🚀 クイックスタート

このモデルは、OpenAIによって開発された強力な音声認識プラットフォームであるWhisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされています。ドイツ語の音声を効果的に処理および認識するように特別に最適化されています。

✨ 主な機能

このモデルは、様々なアプリケーション分野で使用できます。

ドイツ語の音声を文字起こしする
音声コマンドや音声制御を行う
ドイツ語のビデオに自動字幕を付ける
ドイツ語で音声ベースの検索クエリを行う
ワードプロセッシングプログラムの音声入力機能

📚 ドキュメント

モデルファミリー

モデル	パラメータ	リンク
Whisper large v3 german	1.54B	リンク
Whisper large v3 turbo german	809M	リンク
Distil-whisper large v3 german	756M	リンク
tiny whisper	37.8M	リンク

評価 - 単語誤り率

データセット	openai-whisper-large-v3-turbo	openai-whisper-large-v3	primeline-whisper-large-v3-german	nyrahealth-CrisperWhisper (large)	primeline-whisper-large-v3-turbo-german
Tuda-De	8.300	7.884	7.711	5.148	6.441
common_voice_19_0	3.849	3.484	3.215	1.927	3.200
multilingual librispeech	3.203	2.832	2.129	2.815	2.070
全て	3.649	3.279	2.734	2.662	2.628

評価用のデータとコードはこちらで入手できます。

トレーニングデータ

このモデルのトレーニングデータには、様々なソースから収集された大量のドイツ語の音声が含まれています。認識性能を最適化するために、データは慎重に選択され、処理されています。

トレーニングプロセス

モデルのトレーニングは、以下のハイパーパラメータを使用して行われました。

バッチサイズ: 12288
エポック数: 3
学習率: 1e-6
データ拡張: なし
オプティマイザ: Ademamix

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-large-v3-turbo-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

👥 開発者情報

開発者

このモデルは、Florian Zimmermeisterによって開発されました。

開発元

ドイツにおけるAIインフラストラクチャのパートナーです。深層学習、機械学習、および高性能コンピューティングにおける野心を推進する強力なAIインフラストラクチャを体験してください。AIのトレーニングと推論に最適化されています。

免責事項

このモデルは、primeLineグループの製品ではありません。
これは、[Florian Zimmermeister](https://huggingface.co/flozi00)によって行われた研究を表しており、コンピューティングパワーはprimeLineによって提供されています。
このモデルはprimeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。
私たちはこのモデルを可能な限りテストし、開発してきましたが、エラーが発生する可能性があることにご留意ください。
このモデルの使用は自己責任で行ってください。このモデルによって生成された誤った出力に対して、私たちは責任を負いません。