whisper-small-uz-en-ru-lang-id開源多語言語音模型

首頁

Whisper Small Uz En Ru Lang Id

由fitlemon開發

基於Whisper-small微調的多語言語音分類模型，支持烏茲別克語、英語和俄語的語音識別與分類。

音頻分類

Transformers

支持多種語言開源協議:Apache-2.0 #多語言語音識別 #高準確率分類 #烏英俄語支持

下載量 17

發布時間 : 3/7/2024

模型概述

該模型是在openai/whisper-small基礎上，針對烏茲別克語、英語和俄語進行微調的語音分類模型，主要用於識別和分類這三種語言的語音內容。

模型特點

多語言支持

能夠識別和分類烏茲別克語、英語和俄語三種語言的語音內容

高準確率

在驗證集上達到97.47%的準確率和97.46%的F1值

基於Whisper架構

利用經過驗證的Whisper-small架構進行微調，保證了模型的穩定性和性能

模型能力

語音識別

語言分類

多語言處理

使用案例

語音識別

多語言語音分類

識別語音內容屬於烏茲別克語、英語還是俄語

測試集準確率達92.4%

🚀 whisper-small-uz-en-ru-lang-id

本模型是基於openai/whisper-small在 "mozilla-foundation/common_voice_16_1"（烏茲別克語/英語/俄語）數據集上進行微調的版本。它在訓練過程中的驗證集上取得了以下成績：

損失率：0.2065
準確率：0.9747
F1值：0.9746

在測試（評估）數據集上的準確率為92.4%。

🚀 快速開始

本模型是在特定數據集上對基礎模型進行微調得到的，可用於音頻分類任務。

📦 模型信息

屬性	詳情
模型類型	音頻分類模型
基礎模型	openai/whisper-small
訓練數據	mozilla-foundation/common_voice_16_1（烏茲別克語、英語、俄語）
指標	準確率、F1值
支持語言	烏茲別克語、英語、俄語

💻 使用示例

基礎用法

# datasets for each language from the set {uz: Uzbek, en: English, ru: Russian}
common_voice_train_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)

# code to shuffle and to take limited size of data. Rows per set: Train-24000, Validation-3000.
... 
# concatenate 3 datasets
common_voice['train'] = concatenate_datasets([common_voice_train_uz, common_voice_train_ru, common_voice_train_en])