whisper-tiny-german-1224オープンソースドイツ語音声認識モデル - 無料で効率的なドイツ語音声文字起こし

ホーム

Whisper Tiny German 1224

primelineによって開発

Whisperアーキテクチャを基に最適化されたドイツ語音声認識モデル、パラメータ数3900万、効率的なドイツ語音声転写をサポート

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声転写 #軽量ASR #低単語誤り率

ダウンロード数 322

リリース時間 : 11/23/2024

モデル概要

これはドイツ語に特化して最適化された自動音声認識(ASR)モデルで、OpenAIのWhisperマイクロアーキテクチャを基に開発されており、様々なドイツ語音声処理シナリオに適しています

モデル特徴

効率的なドイツ語認識

ドイツ語に特化して最適化された音声認識モデルで、ドイツ語データセットにおいてベースラインのWhisperモデルよりも優れた性能を発揮します

軽量アーキテクチャ

Whisper-tinyアーキテクチャを採用、パラメータ数はわずか3900万で、リソースが限られた環境での展開に適しています

多様なシナリオ対応

転写、字幕生成、音声制御など、様々なドイツ語音声処理シナリオをサポートします

モデル能力

ドイツ語音声転写

音声コマンド認識

自動字幕生成

音声検索処理

ディクテーション機能サポート

使用事例

音声転写

ドイツ語会議議事録

ドイツ語の会議録音を自動的にテキスト記録に変換

単語誤り率6.26%(総合評価)

メディア処理

動画字幕生成

ドイツ語の動画コンテンツに自動的に字幕を生成

人間と機械のインタラクション

音声制御アプリケーション

ドイツ語音声制御インターフェースの開発

🚀 プライムラインのWhisper Tinyドイツ語モデル

このモデルは、OpenAIのWhisperアーキテクチャをベースに、ドイツ語の音声認識に特化して学習されたモデルです。WhisperはOpenAIによって開発された強力な音声認識プラットフォームで、このモデルはそのtinyアーキテクチャを利用しています。

🚀 クイックスタート

このモデルは、以下のコードを使って簡単に使用できます。

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-tiny-german-1224"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

✨ 主な機能

このモデルは、様々なアプリケーション分野で使用できます。

ドイツ語の音声を文字起こしする
音声コマンドや音声制御を行う
ドイツ語のビデオに自動字幕を付ける
ドイツ語の音声検索クエリを行う
ワードプロセッサでの音声入力機能

📚 ドキュメント

評価 - 単語誤り率

以下は、いくつかのモデルの単語誤り率の比較です。

+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| Model                                   |   All |   Tuda-De |   multilingual librispeech |   common_voice_19_0 |
+=========================================+=======+===========+============================+=====================+
| openai-whisper-large-v3                 |  3.28 |      7.86 |                       2.85 |                3.46 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-large-v3-turbo           |  3.64 |      8.20 |                       3.19 |                3.85 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-medium                   |  5.49 |     11.13 |                       5.04 |                5.53 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| primeline-whisper-tiny-german-1224      |  6.26 |      9.62 |                       4.97 |                8.46 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-small                    |  9.54 |     15.94 |                       8.77 |               10.15 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-base                     | 18.75 |     33.58 |                      17.15 |               19.74 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+
| openai-whisper-tiny                     | 28.80 |     47.33 |                      26.47 |               30.76 |
+-----------------------------------------+-------+-----------+----------------------------+---------------------+

サイズ	パラメータ数
tiny	39 M
base	74 M
small	244 M
medium	769 M
large	1550 M
large-v2	1550 M

これらの結果は2024年12月に計算されたもので、評価コーパスの更新に伴い変化する可能性があります。最新の結果については、コードとデータセットのページを確認してください。評価用のデータとコードはこちらで入手できます。

学習データ

このモデルの学習データには、様々なソースから収集された大量のドイツ語の音声が含まれています。データは、認識性能を最適化するために慎重に選択され、処理されています。データセットのサイズは、約6000時間の公開データ、独自データ、合成データです。

学習プロセス

このモデルの学習は、以下のハイパーパラメータを使用して行われました。

バッチサイズ: 32768
エポック数: 48
学習率: 1e-4
データ拡張: なし
オプティマイザ: Ademamix

🔧 技術詳細

このモデルは、OpenAIのWhisperアーキテクチャのtinyバージョンをベースに構築されています。Whisperは、Transformerベースの音声認識モデルで、多言語の音声認識に優れた性能を発揮します。このモデルは、ドイツ語の音声認識に特化して学習されており、特定のデータセットとハイパーパラメータを使用して最適化されています。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

私たちについて

ドイツにおけるAIインフラストラクチャのパートナーです。ディープラーニング、機械学習、および高性能コンピューティングにおけるあなたの野心を後押しする強力なAIインフラストラクチャを体験してください。AIの学習と推論に最適化されています。

モデルの作成者: Florian Zimmermeister

免責事項

このモデルは、primeLineグループの製品ではありません。これは、[Florian Zimmermeister](https://huggingface.co/flozi00)による研究成果であり、計算資源はprimeLineによって提供されています。このモデルは、primeLineによってこのアカウントで公開されていますが、primeLine Solutions GmbHの商用製品ではありません。

私たちは、このモデルを可能な限りテストし、開発していますが、エラーが発生する可能性があることにご留意ください。このモデルの使用は、自己責任で行ってください。このモデルによって生成された誤った出力について、私たちは責任を負いません。