whisper-small-uz-en-ru-lang-idオープンソース多言語音声モデル - ウズベク語、英語、ロシア語の音声認識分類をサポート

ホーム

Whisper Small Uz En Ru Lang Id

fitlemonによって開発

Whisper-smallを微調整した多言語音声分類モデルで、ウズベク語、英語、ロシア語の音声認識と分類をサポートします。

音声分類

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声認識 #高精度分類 #ウズベク語・英語・ロシア語対応

ダウンロード数 17

リリース時間 : 3/7/2024

モデル概要

このモデルはopenai/whisper-smallを基に、ウズベク語、英語、ロシア語向けに微調整された音声分類モデルで、主にこれら3言語の音声内容を識別・分類するために使用されます。

モデル特徴

多言語サポート

ウズベク語、英語、ロシア語の3言語の音声内容を識別・分類可能

高精度

検証データセットで97.47%の精度と97.46%のF1値を達成

Whisperアーキテクチャ採用

実績あるWhisper-smallアーキテクチャを微調整しており、モデルの安定性と性能を保証

モデル能力

音声認識

言語分類

多言語処理

使用事例

音声認識

多言語音声分類

音声内容がウズベク語、英語、ロシア語のいずれに属するかを識別

テストデータセットで92.4%の精度を達成

🚀 whisper-small-uz-en-ru-lang-id

このモデルは、「mozilla-foundation/common_voice_16_1」(uz/en/ru) データセットで openai/whisper-small をファインチューニングしたバージョンです。トレーニング中の検証セットでは、以下の結果を達成しています。

損失: 0.2065
正解率: 0.9747
F1値: 0.9746

テスト（評価）データセットでの正解率は92.4%です。

🚀 クイックスタート

このモデルは、音声分類タスクに使用できます。具体的な使い方は、以下のセクションを参照してください。

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

トレーニングと評価データ

# datasets for each language from the set {uz: Uzbek, en: English, ru: Russian}
common_voice_train_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)

# code to shuffle and to take limited size of data. Rows per set: Train-24000, Validation-3000.
... 
# concatenate 3 datasets
common_voice['train'] = concatenate_datasets([common_voice_train_uz, common_voice_train_ru, common_voice_train_en])