German-RAG-WHISPER-LARGE-v3-TURBO-HESSIAN-AI開源模型 - 精準提升德語語音識別準確率

首頁

German RAG WHISPER LARGE V3 TURBO HESSIAN AI

由avemio開發

基於Whisper Large v3 Turbo優化的德語語音識別模型，在13小時精選數據集上微調，顯著提升德語識別準確率

語音識別

Transformers

德語開源協議:MIT #德語語音識別 #低詞錯誤率 #商務場景優化

下載量 282

發布時間 : 1/7/2025

模型概述

專注於德語語音識別的高性能模型，通過精心篩選的訓練數據優化了德語識別能力，特別適合德語語音轉文本任務

模型特點

優化的德語識別

在精選的13小時德語數據集上微調，顯著提升德語識別準確率

多數據集表現優異

在Tuda-De、Common Voice等多個測試數據集上表現優於基礎模型

混合內容處理

能夠處理德語會話及英語商務短語混合內容

模型能力

德語語音識別

英語短語識別

長音頻處理

帶時間戳的轉錄

使用案例

語音轉錄

德語會議記錄

將德語會議錄音自動轉錄為文字記錄

詞錯誤率顯著低於基礎模型

多媒體內容字幕

為德語視頻內容生成準確的字幕

支持帶時間戳的轉錄

商務應用

跨語言商務溝通

處理包含德語和英語混合內容的商務對話

能準確識別兩種語言混合的內容

🚀 德國-RAG-WHISPER-LARGE-v3-TURBO-HESSIAN-AI

該模型是基於自動語音識別任務，在精心挑選的13小時數據集上微調得到的模型，可有效提升德語語音識別的準確率。

🚀 快速開始

本模型基於transformers庫，以下是使用該模型進行自動語音識別的示例代碼：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "avemio/German-RAG-WHISPER-LARGE-v3-TURBO"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

✨ 主要特性

精心微調：在精心挑選的13小時數據集上進行微調，優化識別性能。
多數據集表現出色：在多個測試數據集上的單詞錯誤率表現良好。

📦 安裝指南

使用該模型前，你需要安裝以下依賴庫：

- Transformers 4.47.1
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0

📚 詳細文檔

評估 - 單詞錯誤率

測試數據集	openai-whisper-large-v3-turbo	German-RAG-WHISPER-LARGE-v3-TURBO	primeline-whisper-large-v3-turbo-german
Tuda-De	8.195	6.360	6.441
common_voice_19_0	3.839	3.249	3.217
multilingual librispeech	3.202	2.071	2.067
全部	3.641	2.633	2.630

評估數據和代碼可在此處獲取。

訓練數據

該模型的訓練數據包含德語口語對話，並混合了一些英語商務短語。數據經過精心挑選和處理，以優化識別性能。由於數據用於語音克隆的情況尚不明確，因此該數據集不會公開。收集的數據僅用於訓練語音轉文本模型的預期用途。

框架版本

屬性	詳情
模型類型	自動語音識別
訓練數據	包含德語口語對話和英語商務短語的數據集
框架版本	Transformers 4.47.1、Pytorch 2.5.1+cu121、Datasets 3.2.0、Tokenizers 0.21.0