asr-whisper-large-v3-salt開源語音識別模型 - 免費部署精準識別烏干達多語言

首頁

Asr Whisper Large V3 Salt

由Sunbird開發

基於whisper-large-v3適配的語音識別模型，專門針對烏干達地區多種語言優化

語音識別

Transformers

支持多種語言#烏干達多語言語音識別 #低資源語言優化 #噪聲環境魯棒性

下載量 249

發布時間 : 2/4/2025

模型概述

該模型是針對烏干達地區多種語言的語音識別模型，支持盧幹達語、英語、尼揚科勒語、阿喬利語、特索語、盧格巴拉語等多種語言，特別優化了烏干達口音和環境噪音下的識別性能

模型特點

多語言支持

專門針對烏干達地區11種語言優化，包括多種本土語言和烏干達口音英語

環境噪音魯棒性

訓練過程中添加了隨機噪聲和街道環境噪音，增強了實際應用場景下的識別能力

電話語音優化

通過隨機降採樣至8kHz模擬電話語音質量，提高了低質量音頻的識別準確率

模型能力

語音轉文本

多語言識別

自動語言檢測

噪音環境下的語音識別

使用案例

語音轉錄

多語言會議記錄

用於烏干達多語言會議的即時轉錄

支持11種語言的自動識別和轉錄

電話客服記錄

處理低質量的電話語音記錄

針對8kHz採樣率優化的識別能力

語音輔助技術

本地語言語音助手

為烏干達地區開發支持本土語言的語音助手

對多種本土語言的高準確率識別

🚀 適用於烏干達語言的Whisper大模型

本模型是對whisper-large-v3的適配版本，適用於烏干達廣泛使用的以下語言：盧幹達語、阿喬利語、盧格巴拉語、阿泰索語、尼揚科勒語、託羅語、盧馬薩巴語、斯瓦希里語、盧索加語、基尼亞盧旺達語和英語（烏干達口音）。

✨ 主要特性

基於whisper-large-v3模型，適配烏干達多種語言。
訓練時採用多種數據集，提升模型泛化能力。
訓練過程中添加隨機噪聲和降採樣，模擬真實語音場景。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import transformers
import datasets
import torch

processor = transformers.WhisperProcessor.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")
model = transformers.WhisperForConditionalGeneration.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")

SALT_LANGUAGE_TOKENS_WHISPER = {
    'eng': 50259,  # English (Ugandan)
    'swa': 50318,  # Swahili
    'ach': 50357,  # Acholi
    'lgg': 50356,  # Lugbara
    'lug': 50355,  # Luganda
    'nyn': 50354,  # Runyankole
    'teo': 50353,  # Ateso
    'xog': 50352,  # Lusoga
    'ttj': 50351,  # Rutooro
    'kin': 50350,  # Kinyarwanda
    'myx': 50349,  # Lumasaba
}

# Get some test audio
ds = datasets.load_dataset('Sunbird/salt', 'multispeaker-lug', split='test')
audio = ds[0]['audio']
sample_rate = ds[0]['sample_rate']

# Specify a language from one of the above.
lang = 'lug'

# Apply the model
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
input_features = processor(
    audio, sampling_rate=sample_rate, return_tensors="pt").input_features
input_features = input_features.to(device)
predicted_ids = model.to(device).generate(
    input_features,
    # Optionally set language=None here instead to auto-detect.
    language=processor.tokenizer.decode(SALT_LANGUAGE_TOKENS_WHISPER[lang]),
    forced_decoder_ids=None)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

print(transcription)
# Ekikoola kya kasooli kya kyenvu wabula langi yaakyo etera okuba eya kitaka wansi.

高級用法

文檔未提及高級用法相關代碼示例，故跳過此部分。

📚 詳細文檔

訓練情況

該模型使用了SALT數據集、Common Voice（盧幹達語、斯瓦希里語、基尼亞盧旺達語）、Google FLEURS和Makerere Yogera數據集進行訓練。為了幫助模型在實際應用中更好地泛化，訓練過程中添加了隨機噪聲，並隨機降採樣到8kHz以模擬電話語音。此外，還添加了從烏干達城市地區採樣的街道噪聲，以提高模型的魯棒性。

性能指標

該模型在SALT文本以及Common Voice（斯瓦希里語、基尼亞盧旺達語）和Yogera（託羅語、盧索加語）的保留數據集上進行了評估，具體指標如下：

指標	英語	盧幹達語	阿喬利語	盧格巴拉語	阿泰索語	尼揚科勒語	盧馬薩巴語	盧索加語	斯瓦希里語	基尼亞盧旺達語	平均
WER	0.018	0.142	0.195	0.189	0.202	0.234	0.461	0.453	0.069	0.111	0.207
CER	0.009	0.029	0.045	0.045	0.051	0.043	0.092	0.081	0.015	0.031	0.044

模型信息

屬性	詳情
模型類型	whisper-large-v3-salt-plus-xog-myx-kin-swa-continued
訓練數據	SALT數據集、Common Voice（盧幹達語、斯瓦希里語、基尼亞盧旺達語）、Google FLEURS和Makerere Yogera數據集