navaistt_v1_medium开源乌兹别克语语音识别模型

首页

Navaistt V1 Medium

由 islomov 开发

基于Whisper medium模型微调的乌兹别克语语音识别模型，支持塔什干方言，训练数据约700小时

语音识别

Safetensors

其他开源协议:Apache-2.0 #乌兹别克语语音识别 #塔什干方言优化 #多源数据训练

下载量 3,081

发布时间 : 5/2/2025

模型简介

专为乌兹别克语优化的自动语音识别模型，特别针对塔什干方言进行优化，适用于音频转录任务

模型特点

塔什干方言优化

特别关注塔什干方言音频材料，使模型在该方言上表现优异

多样化训练数据

使用约700小时多样化音频数据，包括播客、有声书和Common Voice语料

混合质量数据训练

60%人工转录与40%伪转录材料(Gemini 2.5 Pro生成)的混合训练策略

模型能力

乌兹别克语语音识别

塔什干方言识别

音频转录

30秒内短语音处理

使用案例

语音转录

播客内容转录

将乌兹别克语播客内容自动转为文字

词错误率约13%

有声书转录

将乌兹别克语有声书转为文本格式

语音助手

乌兹别克语语音输入

为应用程序添加乌兹别克语语音输入功能

🚀 NavaiSTT-1v Medium - 乌兹别克语语音转文本模型

NavaiSTT-1v Medium是基于经典Whisper中型模型针对乌兹别克语进行微调的语音转文本模型。该模型的训练数据集包含约700小时的多样化音频，涵盖公开可用的播客、塔什干方言播客、有声读物以及Common Voice 17数据集。数据质量参差不齐，其中60%由人工转录，40%使用Gemini 2.5 Pro进行伪转录。

特别关注了塔什干方言的音频材料，使得模型在该方言上表现出色。未来版本将纳入其他地区方言，以提高整体覆盖范围。

🚀 快速开始

若想了解该模型背后的方法和研究详情，请访问白皮书链接：点击查看

✨ 主要特性

针对性微调：基于经典Whisper中型模型，针对乌兹别克语进行了精细微调。
数据多样化：使用约700小时的多样化音频数据进行训练，包括公开播客、塔什干方言播客、有声读物和Common Voice 17数据集。
方言优化：特别关注塔什干方言音频材料，在该方言上表现优异。
未来规划：未来版本将纳入更多地区方言，提升整体覆盖范围。

📦 安装指南

文档未提及安装步骤，可参考transformers库的安装方式来安装相关依赖：

pip install transformers torch torchaudio

💻 使用示例

基础用法

import torch
import torchaudio
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Load model and processor
processor = WhisperProcessor.from_pretrained("islomov/navaistt_v1_medium")
model = WhisperForConditionalGeneration.from_pretrained("islomov/navaistt_v1_medium")

def transcribe_audio(audio_path):

    global model, processor

    # Move to GPU if available
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model = model.to(device)

    # Load and preprocess audio
    waveform, sample_rate = torchaudio.load(audio_path)
    if sample_rate != 16000:
        waveform = torchaudio.functional.resample(waveform, sample_rate, 16000)

    # Convert to mono if needed
    if waveform.shape[0] > 1:
        waveform = waveform.mean(dim=0, keepdim=True)

    # Process audio
    input_features = processor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        language="uz"
    ).input_features.to(device)

    # Generate transcription
    with torch.no_grad():
        predicted_ids = model.generate(input_features)

    # Decode
    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
    return transcription

# Example usage
if __name__ == "__main__":
    audio_file = "some_audio_max_30_sec.wav"

    text = transcribe_audio(audio_file)
    print(f"Transcription: {text}")