asr-whisper-large-v3-saltオープンソース音声認識モデル - 無料でデプロイし、ウガンダの多言語を高精度で認識

ホーム

Asr Whisper Large V3 Salt

Sunbirdによって開発

whisper-large-v3を基に適応した音声認識モデルで、ウガンダ地域の複数言語に特化して最適化

音声認識

Transformers

複数言語対応#ウガンダ多言語音声認識 #低リソース言語最適化 #ノイズ環境耐性

ダウンロード数 249

リリース時間 : 2/4/2025

モデル概要

このモデルはウガンダ地域の複数言語に対応した音声認識モデルで、ルガンダ語、英語、ニャンコレ語、アチョリ語、テソ語、ルグバラ語など多様な言語をサポートし、特にウガンダのアクセントや環境ノイズ下での認識性能を最適化

モデル特徴

多言語サポート

ウガンダ地域の11言語に特化して最適化、複数の現地言語とウガンダアクセントの英語を含む

環境ノイズ耐性

ランダムノイズや街中環境音を学習データに追加し、実用環境下での認識能力を強化

電話音声最適化

8kHzへのダウンサンプリングで電話音声品質をシミュレートし、低品質音声の認識精度向上

モデル能力

音声からテキストへの変換

多言語認識

自動言語検出

ノイズ環境下での音声認識

使用事例

音声文字起こし

多言語会議議事録

ウガンダの多言語会議のリアルタイム文字起こしに利用

11言語の自動認識と文字起こしをサポート

電話対応記録

低品質な電話音声記録の処理

8kHzサンプリングレートに最適化された認識能力

音声支援技術

現地言語音声アシスタント

ウガンダ地域向けに現地言語をサポートする音声アシスタント開発

複数の現地言語に対する高精度な認識

🚀 Whisper large for Ugandan languages

このモデルは、ウガンダで広く話されている以下の言語に対応した whisper-large-v3 の適応版です。ルガンダ語、アチョリ語、ルグバラ語、アテソ語、ルニャンコレ語、ルトゥーロ語、ルマサバ語、スワヒリ語、ルソガ語、キニヤルワンダ語、英語（ウガンダ方言）です。

✨ 主な機能

このモデルは、ウガンダで広く話されている複数の言語に対応しており、自動的に言語を検出して文字起こしを行うことができます。

📦 インストール

このドキュメントにはインストール手順が記載されていないため、このセクションをスキップします。

📚 ドキュメント

トレーニング

このモデルは、SALT データセット、Common Voice（ルガンダ語、スワヒリ語、キニヤルワンダ語）、Google FLEURS、Makerere Yogera データセットを使用してトレーニングされました。実際の設定での汎化能力を向上させるために、トレーニングではランダムノイズの追加と 8kHz へのランダムダウンサンプリングを使用して、電話音声をシミュレートしました。ウガンダの都市部からサンプリングされた路上雑音を追加して、頑健性を向上させました。

性能指標

SALT テキスト、Common Voice（スワヒリ語、キニヤルワンダ語）および Yogera（ルトゥーロ語、ルソガ語）のホールドアウト分割で評価されました。

指標	詳細
eval_WER_eng	0.018
eval_WER_lug	0.142
eval_WER_ach	0.195
eval_WER_lgg	0.189
eval_WER_teo	0.202
eval_WER_nyn	0.234
eval_WER_myx	0.461
eval_WER_xog	0.453
eval_WER_swa	0.069
eval_WER_kin	0.111
eval_WER_mean	0.207
eval_CER_eng	0.009
eval_CER_lug	0.029
eval_CER_ach	0.045
eval_CER_lgg	0.045
eval_CER_teo	0.051
eval_CER_nyn	0.043
eval_CER_myx	0.092
eval_CER_xog	0.081
eval_CER_swa	0.015
eval_CER_kin	0.031
eval_CER_mean	0.044

💻 使用例

基本的な使用法

import transformers
import datasets
import torch

processor = transformers.WhisperProcessor.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")
model = transformers.WhisperForConditionalGeneration.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")

SALT_LANGUAGE_TOKENS_WHISPER = {
    'eng': 50259,  # English (Ugandan)
    'swa': 50318,  # Swahili
    'ach': 50357,  # Acholi
    'lgg': 50356,  # Lugbara
    'lug': 50355,  # Luganda
    'nyn': 50354,  # Runyankole
    'teo': 50353,  # Ateso
    'xog': 50352,  # Lusoga
    'ttj': 50351,  # Rutooro
    'kin': 50350,  # Kinyarwanda
    'myx': 50349,  # Lumasaba
}

# Get some test audio
ds = datasets.load_dataset('Sunbird/salt', 'multispeaker-lug', split='test')
audio = ds[0]['audio']
sample_rate = ds[0]['sample_rate']

# Specify a language from one of the above.
lang = 'lug'

# Apply the model
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
input_features = processor(
    audio, sampling_rate=sample_rate, return_tensors="pt").input_features
input_features = input_features.to(device)
predicted_ids = model.to(device).generate(
    input_features,
    # Optionally set language=None here instead to auto-detect.
    language=processor.tokenizer.decode(SALT_LANGUAGE_TOKENS_WHISPER[lang]),
    forced_decoder_ids=None)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

print(transcription)
# Ekikoola kya kasooli kya kyenvu wabula langi yaakyo etera okuba eya kitaka wansi.