whisper-large-v3-turbo-turkish開源模型 - 精準識別土耳其語語音內容

首頁

Whisper Large V3 Turbo Turkish

由selimc開發

基於openai/whisper-large-v3-turbo在Common Voice 17.0數據集上微調的土耳其語語音識別模型

語音識別

Transformers

其他開源協議:MIT #土耳其語語音轉寫 #低詞錯誤率 #長音頻處理

下載量 289

發布時間 : 10/8/2024

模型概述

該模型專門針對土耳其語語音轉寫任務進行了優化，適用於語音指令識別和自動字幕生成等場景

模型特點

土耳其語優化

針對土耳其語進行了專門微調，提高了該語言的識別準確率

高效訓練

在有限資源下完成了有效訓練，詞錯誤率降低至18.92%

輕量部署

支持FP16精度，可在消費級GPU上高效運行

模型能力

土耳其語語音轉寫

語音指令識別

自動字幕生成

使用案例

語音轉寫

會議記錄

將土耳其語會議錄音自動轉為文字記錄

詞錯誤率18.92%

視頻字幕

為土耳其語視頻生成自動字幕

🚀 Whisper Large v3 Turbo TR - Selim Çavaş

本模型是在Common Voice 17.0數據集上對openai/whisper-large-v3-turbo進行微調後的版本。它在評估集上取得了以下成果，能夠高效處理土耳其語語音相關任務，為語音識別和處理領域提供了強大支持。

🚀 快速開始

本模型可用於多種應用場景，以下是使用該模型的基本步驟和示例代碼。

✨ 主要特性

多場景應用：可用於土耳其語的轉錄、語音命令以及土耳其語視頻的自動字幕生成等。
微調優化：基於Common Voice 17.0數據集對基礎模型進行微調，提升了在特定任務上的性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "selimc/whisper-large-v3-turbo-turkish"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe("test.mp3")
print(result["text"])

📚 詳細文檔

預期用途與限制

本模型可用於多個應用領域，包括：

土耳其語轉錄
語音命令
土耳其語視頻的自動字幕

訓練情況

由於Colab GPU的限制，僅使用了Common Voice 17.0數據集中25%的土耳其語數據進行訓練。如果您有閒置的GPU，歡迎合作，進一步提升該模型的性能！

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	1e-05
訓練批次大小	16
評估批次大小	8
隨機種子	42
優化器	Adam（betas=(0.9, 0.999)，epsilon=1e-08）
學習率調度器類型	線性
學習率調度器熱身步數	500
訓練步數	4000
混合精度訓練	原生AMP