navaistt_v1_medium開源烏茲別克語語音識別模型

首頁

Navaistt V1 Medium

由islomov開發

基於Whisper medium模型微調的烏茲別克語語音識別模型，支持塔什干方言，訓練數據約700小時

語音識別

Safetensors

其他開源協議:Apache-2.0 #烏茲別克語語音識別 #塔什干方言優化 #多源數據訓練

下載量 3,081

發布時間 : 5/2/2025

模型概述

專為烏茲別克語優化的自動語音識別模型，特別針對塔什干方言進行優化，適用於音頻轉錄任務

模型特點

塔什干方言優化

特別關注塔什干方言音頻材料，使模型在該方言上表現優異

多樣化訓練數據

使用約700小時多樣化音頻數據，包括播客、有聲書和Common Voice語料

混合質量數據訓練

60%人工轉錄與40%偽轉錄材料(Gemini 2.5 Pro生成)的混合訓練策略

模型能力

烏茲別克語語音識別

塔什干方言識別

音頻轉錄

30秒內短語音處理

使用案例

語音轉錄

播客內容轉錄

將烏茲別克語播客內容自動轉為文字

詞錯誤率約13%

有聲書轉錄

將烏茲別克語有聲書轉為文本格式

語音助手

烏茲別克語語音輸入

為應用程序添加烏茲別克語語音輸入功能

🚀 NavaiSTT-1v Medium - 烏茲別克語語音轉文本模型

NavaiSTT-1v Medium是基於經典Whisper中型模型針對烏茲別克語進行微調的語音轉文本模型。該模型的訓練數據集包含約700小時的多樣化音頻，涵蓋公開可用的播客、塔什干方言播客、有聲讀物以及Common Voice 17數據集。數據質量參差不齊，其中60%由人工轉錄，40%使用Gemini 2.5 Pro進行偽轉錄。

特別關注了塔什干方言的音頻材料，使得模型在該方言上表現出色。未來版本將納入其他地區方言，以提高整體覆蓋範圍。

🚀 快速開始

若想了解該模型背後的方法和研究詳情，請訪問白皮書鏈接：點擊查看

✨ 主要特性

針對性微調：基於經典Whisper中型模型，針對烏茲別克語進行了精細微調。
數據多樣化：使用約700小時的多樣化音頻數據進行訓練，包括公開播客、塔什干方言播客、有聲讀物和Common Voice 17數據集。
方言優化：特別關注塔什干方言音頻材料，在該方言上表現優異。
未來規劃：未來版本將納入更多地區方言，提升整體覆蓋範圍。

📦 安裝指南

文檔未提及安裝步驟，可參考transformers庫的安裝方式來安裝相關依賴：

pip install transformers torch torchaudio

💻 使用示例

基礎用法

import torch
import torchaudio
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Load model and processor
processor = WhisperProcessor.from_pretrained("islomov/navaistt_v1_medium")
model = WhisperForConditionalGeneration.from_pretrained("islomov/navaistt_v1_medium")

def transcribe_audio(audio_path):

    global model, processor

    # Move to GPU if available
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model = model.to(device)

    # Load and preprocess audio
    waveform, sample_rate = torchaudio.load(audio_path)
    if sample_rate != 16000:
        waveform = torchaudio.functional.resample(waveform, sample_rate, 16000)

    # Convert to mono if needed
    if waveform.shape[0] > 1:
        waveform = waveform.mean(dim=0, keepdim=True)

    # Process audio
    input_features = processor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        language="uz"
    ).input_features.to(device)

    # Generate transcription
    with torch.no_grad():
        predicted_ids = model.generate(input_features)

    # Decode
    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
    return transcription

# Example usage
if __name__ == "__main__":
    audio_file = "some_audio_max_30_sec.wav"

    text = transcribe_audio(audio_file)
    print(f"Transcription: {text}")