whisper-large-v3-turbo-turkish开源模型 - 精准识别土耳其语语音内容

首页

Whisper Large V3 Turbo Turkish

由 selimc 开发

基于openai/whisper-large-v3-turbo在Common Voice 17.0数据集上微调的土耳其语语音识别模型

语音识别

Transformers

其他开源协议:MIT #土耳其语语音转写 #低词错误率 #长音频处理

下载量 289

发布时间 : 10/8/2024

模型简介

该模型专门针对土耳其语语音转写任务进行了优化，适用于语音指令识别和自动字幕生成等场景

模型特点

土耳其语优化

针对土耳其语进行了专门微调，提高了该语言的识别准确率

高效训练

在有限资源下完成了有效训练，词错误率降低至18.92%

轻量部署

支持FP16精度，可在消费级GPU上高效运行

模型能力

土耳其语语音转写

语音指令识别

自动字幕生成

使用案例

语音转写

会议记录

将土耳其语会议录音自动转为文字记录

词错误率18.92%

视频字幕

为土耳其语视频生成自动字幕

🚀 Whisper Large v3 Turbo TR - Selim Çavaş

本模型是在Common Voice 17.0数据集上对openai/whisper-large-v3-turbo进行微调后的版本。它在评估集上取得了以下成果，能够高效处理土耳其语语音相关任务，为语音识别和处理领域提供了强大支持。

🚀 快速开始

本模型可用于多种应用场景，以下是使用该模型的基本步骤和示例代码。

✨ 主要特性

多场景应用：可用于土耳其语的转录、语音命令以及土耳其语视频的自动字幕生成等。
微调优化：基于Common Voice 17.0数据集对基础模型进行微调，提升了在特定任务上的性能。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方安装说明进行安装。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "selimc/whisper-large-v3-turbo-turkish"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe("test.mp3")
print(result["text"])

📚 详细文档

预期用途与限制

本模型可用于多个应用领域，包括：

土耳其语转录
语音命令
土耳其语视频的自动字幕

训练情况

由于Colab GPU的限制，仅使用了Common Voice 17.0数据集中25%的土耳其语数据进行训练。如果您有闲置的GPU，欢迎合作，进一步提升该模型的性能！

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	1e-05
训练批次大小	16
评估批次大小	8
随机种子	42
优化器	Adam（betas=(0.9, 0.999)，epsilon=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练步数	4000
混合精度训练	原生AMP