whisper-large-v3-turbo-german-ct2オープンソースのドイツ語音声認識モデル

ホーム

Whisper Large V3 Turbo German Ct2

jimmymeisterによって開発

Whisper Large v3をベースとしたドイツ語音声認識モデル、ドイツ語音声処理と認識に最適化

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #低い単語誤り率 #効率的な文字起こし

ダウンロード数 38

リリース時間 : 11/13/2024

モデル概要

このモデルはWhisper Large v3をベースとしており、ドイツ語音声認識に特化して微調整されています。ドイツ語音声の文字起こし、音声コマンドと制御、動画の自動字幕生成などのシナリオに適しています。

モデル特徴

高性能ドイツ語音声認識

ドイツ語ASR混合データセットで2.628%の単語誤り率(WER)を達成し、優れた性能を発揮。

最適化されたトレーニングプロセス

Ademamixオプティマイザーと厳選されたトレーニングデータを使用し、モデルの認識性能を向上。

CTranslate2互換

faster-whisperなどCTranslate互換フレームワークに適しており、展開と使用が容易。

モデル能力

ドイツ語音声文字起こし

音声コマンド認識

動画字幕生成

音声検索クエリ

ディクテーション機能

使用事例

音声文字起こし

ドイツ語音声文字起こし

ドイツ語音声コンテンツをテキストに変換、会議議事録やインタビュー文字起こしなどのシナリオに適しています。

単語誤り率が2.628%と低い

動画字幕生成

ドイツ語動画自動字幕

ドイツ語動画コンテンツに正確な字幕を生成し、アクセシビリティを向上。

音声制御

ドイツ語音声コマンド認識

ドイツ語音声コマンドを認識、スマートホームや車載システムなどのシナリオに適しています。

🚀 whisper-large-v3-turbo-german

このモデルは、ドイツ語の音声認識用にファインチューニングされたWhisper Large v3ベースの音声認識モデルです。OpenAIによって開発されたWhisperは強力な音声認識プラットフォームで、このモデルはドイツ語の音声処理と認識に特化して最適化されています。

🚀 クイックスタート

このモデルはCTranslate2 Translationであり、faster-whisperなどのCTranslate準拠のフレームワークで使用できます。ファインチューニング方法や使用したデータセットに関する質問は、元のリポジトリ primeline/whisper-large-v3-turbo-german を参照してください。

✨ 主な機能

概要

このモデルは、OpenAIによって開発された強力な音声認識プラットフォームであるWhisper Large v3をベースに、ドイツ語の音声認識用にファインチューニングされたモデルに関する情報を提供します。このモデルは、ドイツ語の音声の処理と認識に特に最適化されています。

応用分野

このモデルは、以下を含む様々なアプリケーション分野で使用できます。

ドイツ語の音声文字起こし
音声コマンドと音声制御
ドイツ語のビデオの自動字幕付け
ドイツ語の音声ベースの検索クエリ
ワードプロセッシングプログラムの音声入力機能

📚 ドキュメント

モデルファミリー

モデル	パラメータ	リンク
Whisper large v3 german	1.54B	リンク
Whisper large v3 turbo german	809M	リンク
Distil-whisper large v3 german	756M	リンク
tiny whisper	37.8M	リンク

評価 - 単語誤り率 (WER)

データセット	openai-whisper-large-v3-turbo	openai-whisper-large-v3	primeline-whisper-large-v3-german	nyrahealth-CrisperWhisper (large)	primeline-whisper-large-v3-turbo-german
Tuda-De	8.300	7.884	7.711	5.148	6.441
common_voice_19_0	3.849	3.484	3.215	1.927	3.200
multilingual librispeech	3.203	2.832	2.129	2.815	2.070
全て	3.649	3.279	2.734	2.662	2.628

評価用のデータとコードはこちらで入手できます。

学習データ

このモデルの学習データには、様々なソースから収集された大量のドイツ語の音声が含まれています。データは認識性能を最適化するために慎重に選択され、処理されています。

学習プロセス

モデルの学習は、以下のハイパーパラメータで行われました。

バッチサイズ: 12288
エポック数: 3
学習率: 1e-6
データ拡張: なし
オプティマイザー: Ademamix

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-large-v3-turbo-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])