🚀 適用於烏干達語言的Whisper大模型
本模型是對whisper-large-v3
的適配版本,適用於烏干達廣泛使用的以下語言:盧幹達語、阿喬利語、盧格巴拉語、阿泰索語、尼揚科勒語、託羅語、盧馬薩巴語、斯瓦希里語、盧索加語、基尼亞盧旺達語和英語(烏干達口音)。
✨ 主要特性
- 基於
whisper-large-v3
模型,適配烏干達多種語言。
- 訓練時採用多種數據集,提升模型泛化能力。
- 訓練過程中添加隨機噪聲和降採樣,模擬真實語音場景。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import transformers
import datasets
import torch
processor = transformers.WhisperProcessor.from_pretrained(
"Sunbird/asr-whisper-large-v3-salt")
model = transformers.WhisperForConditionalGeneration.from_pretrained(
"Sunbird/asr-whisper-large-v3-salt")
SALT_LANGUAGE_TOKENS_WHISPER = {
'eng': 50259,
'swa': 50318,
'ach': 50357,
'lgg': 50356,
'lug': 50355,
'nyn': 50354,
'teo': 50353,
'xog': 50352,
'ttj': 50351,
'kin': 50350,
'myx': 50349,
}
ds = datasets.load_dataset('Sunbird/salt', 'multispeaker-lug', split='test')
audio = ds[0]['audio']
sample_rate = ds[0]['sample_rate']
lang = 'lug'
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
input_features = processor(
audio, sampling_rate=sample_rate, return_tensors="pt").input_features
input_features = input_features.to(device)
predicted_ids = model.to(device).generate(
input_features,
language=processor.tokenizer.decode(SALT_LANGUAGE_TOKENS_WHISPER[lang]),
forced_decoder_ids=None)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
高級用法
文檔未提及高級用法相關代碼示例,故跳過此部分。
📚 詳細文檔
訓練情況
該模型使用了SALT數據集、Common Voice(盧幹達語、斯瓦希里語、基尼亞盧旺達語)、Google FLEURS和Makerere Yogera數據集進行訓練。為了幫助模型在實際應用中更好地泛化,訓練過程中添加了隨機噪聲,並隨機降採樣到8kHz以模擬電話語音。此外,還添加了從烏干達城市地區採樣的街道噪聲,以提高模型的魯棒性。
性能指標
該模型在SALT文本以及Common Voice(斯瓦希里語、基尼亞盧旺達語)和Yogera(託羅語、盧索加語)的保留數據集上進行了評估,具體指標如下:
指標 |
英語 |
盧幹達語 |
阿喬利語 |
盧格巴拉語 |
阿泰索語 |
尼揚科勒語 |
盧馬薩巴語 |
盧索加語 |
斯瓦希里語 |
基尼亞盧旺達語 |
平均 |
WER |
0.018 |
0.142 |
0.195 |
0.189 |
0.202 |
0.234 |
0.461 |
0.453 |
0.069 |
0.111 |
0.207 |
CER |
0.009 |
0.029 |
0.045 |
0.045 |
0.051 |
0.043 |
0.092 |
0.081 |
0.015 |
0.031 |
0.044 |
模型信息
屬性 |
詳情 |
模型類型 |
whisper-large-v3-salt-plus-xog-myx-kin-swa-continued |
訓練數據 |
SALT數據集、Common Voice(盧幹達語、斯瓦希里語、基尼亞盧旺達語)、Google FLEURS和Makerere Yogera數據集 |
注意事項
- 該模型的使用方式與基礎Whisper模型類似,會嘗試自動檢測語言並提供轉錄結果。但需要注意的是,語言檢測並不總是準確的,手動指定語言可能會提高轉錄結果的準確性。
- 此模型支持的語言在基礎Whisper模型中並不支持,因此使用格式略有不同。
🔧 技術細節
文檔未提供足夠詳細的技術實現細節(少於50字的說明),故跳過此章節。
📄 許可證
文檔未提及許可證信息,故跳過此章節。