navaistt_v1_mediumオープンソースウズベク語音声認識モデル

Home

Navaistt V1 Medium

Developed by islomov

Whisper mediumモデルをファインチューニングしたウズベク語音声認識モデルで、タシュケント方言をサポートし、約700時間のトレーニングデータを使用

音声認識

Safetensors

OtherOpen Source License:Apache-2.0 #ウズベク語音声認識 #タシュケント方言最適化 #多様なデータソースでのトレーニング

Downloads 3,081

Release Time : 5/2/2025

Model Overview

ウズベク語に最適化された自動音声認識モデルで、特にタシュケント方言に焦点を当てており、音声転写タスクに適しています

Model Features

タシュケント方言最適化

タシュケント方言の音声資料に特に重点を置き、この方言でのモデルの性能を向上させています

多様なトレーニングデータ

約700時間の多様な音声データを使用しており、ポッドキャスト、オーディオブック、Common Voiceコーパスを含みます

混合品質データトレーニング

60%の手動転写と40%の擬似転写材料（Gemini 2.5 Pro生成）を使用した混合トレーニング戦略

Model Capabilities

ウズベク語音声認識

タシュケント方言認識

音声転写

30秒以内の短い音声処理

Use Cases

音声転写

ポッドキャスト内容の転写

ウズベク語のポッドキャスト内容を自動的にテキストに変換

単語誤り率約13%

オーディオブック転写

ウズベク語のオーディオブックをテキスト形式に変換

音声アシスタント

ウズベク語音声入力

アプリケーションにウズベク語音声入力機能を追加

🚀 NavaiSTT - 1v Medium - ウズベク語音声テキスト変換モデル

このモデルは、ウズベク語に特化して微調整されたClassic Whisper mediumモデルです。約700時間の多様な音声データセットを使用しており、公開されているポッドキャスト、タシケント方言のポッドキャスト、オーディオブック、Common Voice 17などが含まれています。データの品質は混合で、60％が人間による文字起こし、40％がGemini 2.5 Proを使用した疑似文字起こしです。

特にタシケント方言の音声資料には注意が払われており、この方言での性能が高くなっています。将来のバージョンでは、他の地域方言も含めて全体的なカバレッジを向上させる予定です。

🚀 クイックスタート

このモデルは、ウズベク語の音声をテキストに変換するために微調整されたWhisper Mediumモデルです。以下のセクションでは、モデルの詳細、学習データ、使用例などについて説明します。

✨ 主な機能

ウズベク語に特化した音声テキスト変換モデル。
タシケント方言での高い性能。
将来的には他の地域方言もサポート予定。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略します。

💻 使用例

基本的な使用法

import torch
import torchaudio
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Load model and processor
processor = WhisperProcessor.from_pretrained("islomov/navaistt_v1_medium")
model = WhisperForConditionalGeneration.from_pretrained("islomov/navaistt_v1_medium")

def transcribe_audio(audio_path):

    global model, processor

    # Move to GPU if available
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model = model.to(device)

    # Load and preprocess audio
    waveform, sample_rate = torchaudio.load(audio_path)
    if sample_rate != 16000:
        waveform = torchaudio.functional.resample(waveform, sample_rate, 16000)

    # Convert to mono if needed
    if waveform.shape[0] > 1:
        waveform = waveform.mean(dim=0, keepdim=True)

    # Process audio
    input_features = processor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        language="uz"
    ).input_features.to(device)

    # Generate transcription
    with torch.no_grad():
        predicted_ids = model.generate(input_features)

    # Decode
    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
    return transcription

# Example usage
if __name__ == "__main__":
    audio_file = "some_audio_max_30_sec.wav"

    text = transcribe_audio(audio_file)
    print(f"Transcription: {text}")

📚 ドキュメント

ホワイトペーパー

このモデルの方法論と研究の詳細については、以下のリンクを参照してください。 https://uz-speech.web.app/navaistt01m

モデルの詳細

プロパティ	詳細
ベースモデル	Whisper Medium
パラメータ	769M
性能	WER: ~13%、CER: ~3.5%

学習データ

このモデルは、約700時間の多様なウズベク語の音声データで微調整されました。以下のデータが含まれています。

公開されているポッドキャスト
タシケント方言のポッドキャスト
オーディオブック
Common Voice 17データセット

データセットは、60％が人間による文字起こし、40％がGemini 2.5 Proを使用した疑似文字起こしで構成されています。特にタシケント方言の音声資料には注意が払われており、この方言での性能が高くなっています。

🔧 技術詳細

このモデルは、ウズベク語に特化してClassic Whisper mediumモデルを微調整したものです。多様な音声データセットを使用し、特にタシケント方言の音声資料に注意を払っています。これにより、タシケント方言での性能が高くなっています。将来のバージョンでは、他の地域方言も含めて全体的なカバレッジを向上させる予定です。