whisper-tiny-german-1224开源德语语音识别模型

首页

Whisper Tiny German 1224

由 primeline 开发

基于Whisper架构优化的德语语音识别模型，参数量3900万，支持高效德语语音转录

语音识别

Transformers

德语开源协议:Apache-2.0 #德语语音转录 #轻量级ASR #低词错误率

下载量 322

发布时间 : 11/23/2024

模型简介

这是一个专门针对德语优化的自动语音识别(ASR)模型，基于OpenAI的Whisper微型架构开发，适用于多种德语语音处理场景

模型特点

高效德语识别

专门针对德语优化的语音识别模型，在德语数据集上表现优于基础Whisper模型

轻量级架构

基于Whisper-tiny架构，参数量仅3900万，适合资源受限环境部署

多场景适用

支持多种德语语音处理场景，包括转录、字幕生成和语音控制等

模型能力

德语语音转录

语音命令识别

自动字幕生成

语音搜索处理

听写功能支持

使用案例

语音转录

德语会议记录

将德语会议录音自动转换为文字记录

词错误率6.26%(综合评估)

媒体处理

视频字幕生成

为德语视频内容自动生成字幕

人机交互

语音控制应用

开发德语语音控制界面

🚀 基于Tiny Whisper架构的德语语音识别模型

本模型卡片介绍了一个基于Tiny Whisper架构的模型，该模型经过训练，可用于德语语音识别。Whisper是OpenAI开发的强大语音识别平台。

🚀 快速开始

安装依赖

确保你已经安装了必要的库：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset

加载模型和处理器

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-tiny-german-1224"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)

创建推理管道

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

加载数据集并进行推理

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

✨ 主要特性

多领域应用：可用于德语语音转录、语音命令和控制、德语视频自动字幕、德语语音搜索查询以及文字处理程序中的听写功能。
架构优势：基于OpenAI的Whisper架构，具有强大的语音识别能力。

📦 安装指南

该模型的使用依赖于transformers、torch和datasets等库，你可以使用以下命令进行安装：

pip install transformers torch datasets

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-tiny-german-1224"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

📚 详细文档

应用领域

该模型可应用于以下领域：

德语口语转录
语音命令和语音控制
德语视频自动字幕
德语语音搜索查询
文字处理程序中的听写功能

评估 - 词错误率

模型	全部	Tuda-De	多语言Librispeech	common_voice_19_0
openai-whisper-large-v3	3.28	7.86	2.85	3.46
openai-whisper-large-v3-turbo	3.64	8.20	3.19	3.85
openai-whisper-medium	5.49	11.13	5.04	5.53
primeline-whisper-tiny-german-1224	6.26	9.62	4.97	8.46
openai-whisper-small	9.54	15.94	8.77	10.15
openai-whisper-base	18.75	33.58	17.15	19.74
openai-whisper-tiny	28.80	47.33	26.47	30.76

不同模型大小对应的参数数量如下：

大小	参数数量
tiny	39 M
base	74 M
small	244 M
medium	769 M
large	1550 M
large-v2	1550 M

这些结果于2024年12月计算得出，随着评估语料库的更新，结果可能会发生变化。如需最新结果，请查看代码和数据集页面。评估数据和代码可在此处获取。

训练数据

该模型的训练数据包含大量来自各种来源的德语口语。数据经过精心挑选和处理，以优化识别性能。数据集大小约为6000小时的公开、专有和合成数据。

训练过程

模型训练使用了以下超参数：

批量大小：32768
训练轮数：48
学习率：1e-4
数据增强：无
优化器：Ademamix

🔧 技术细节

本模型基于Tiny Whisper架构进行训练，针对德语语音识别任务进行了优化。在训练过程中，使用了特定的超参数和优化器，以提高模型的性能和准确性。

📄 许可证

本模型采用Apache-2.0许可证。

关于我们

点击了解更多

我们是德国AI基础设施的合作伙伴。体验强大的AI基础设施，助力你在深度学习、机器学习和高性能计算领域实现目标。该基础设施针对AI训练和推理进行了优化。

模型作者：Florian Zimmermeister

免责声明

本模型并非primeLine集团的产品。它代表了[Florian Zimmermeister](https://huggingface.co/flozi00)进行的研究，计算资源由primeLine赞助。该模型由primeLine在此账户下发布，但并非primeLine Solutions GmbH的商业产品。

请注意，尽管我们已尽最大努力测试和开发此模型，但仍可能出现错误。使用此模型需自行承担风险。我们不承担此模型产生的任何错误输出的责任。