asr-whisper-large-v3-salt开源语音识别模型 - 免费部署精准识别乌干达多语言

首页

Asr Whisper Large V3 Salt

由 Sunbird 开发

基于whisper-large-v3适配的语音识别模型，专门针对乌干达地区多种语言优化

语音识别

Transformers

支持多种语言#乌干达多语言语音识别 #低资源语言优化 #噪声环境鲁棒性

下载量 249

发布时间 : 2/4/2025

模型简介

该模型是针对乌干达地区多种语言的语音识别模型，支持卢干达语、英语、尼扬科勒语、阿乔利语、特索语、卢格巴拉语等多种语言，特别优化了乌干达口音和环境噪音下的识别性能

模型特点

多语言支持

专门针对乌干达地区11种语言优化，包括多种本土语言和乌干达口音英语

环境噪音鲁棒性

训练过程中添加了随机噪声和街道环境噪音，增强了实际应用场景下的识别能力

电话语音优化

通过随机降采样至8kHz模拟电话语音质量，提高了低质量音频的识别准确率

模型能力

语音转文本

多语言识别

自动语言检测

噪音环境下的语音识别

使用案例

语音转录

多语言会议记录

用于乌干达多语言会议的实时转录

支持11种语言的自动识别和转录

电话客服记录

处理低质量的电话语音记录

针对8kHz采样率优化的识别能力

语音辅助技术

本地语言语音助手

为乌干达地区开发支持本土语言的语音助手

对多种本土语言的高准确率识别

🚀 适用于乌干达语言的Whisper大模型

本模型是对whisper-large-v3的适配版本，适用于乌干达广泛使用的以下语言：卢干达语、阿乔利语、卢格巴拉语、阿泰索语、尼扬科勒语、托罗语、卢马萨巴语、斯瓦希里语、卢索加语、基尼亚卢旺达语和英语（乌干达口音）。

✨ 主要特性

基于whisper-large-v3模型，适配乌干达多种语言。
训练时采用多种数据集，提升模型泛化能力。
训练过程中添加随机噪声和降采样，模拟真实语音场景。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import transformers
import datasets
import torch

processor = transformers.WhisperProcessor.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")
model = transformers.WhisperForConditionalGeneration.from_pretrained(
    "Sunbird/asr-whisper-large-v3-salt")

SALT_LANGUAGE_TOKENS_WHISPER = {
    'eng': 50259,  # English (Ugandan)
    'swa': 50318,  # Swahili
    'ach': 50357,  # Acholi
    'lgg': 50356,  # Lugbara
    'lug': 50355,  # Luganda
    'nyn': 50354,  # Runyankole
    'teo': 50353,  # Ateso
    'xog': 50352,  # Lusoga
    'ttj': 50351,  # Rutooro
    'kin': 50350,  # Kinyarwanda
    'myx': 50349,  # Lumasaba
}

# Get some test audio
ds = datasets.load_dataset('Sunbird/salt', 'multispeaker-lug', split='test')
audio = ds[0]['audio']
sample_rate = ds[0]['sample_rate']

# Specify a language from one of the above.
lang = 'lug'

# Apply the model
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
input_features = processor(
    audio, sampling_rate=sample_rate, return_tensors="pt").input_features
input_features = input_features.to(device)
predicted_ids = model.to(device).generate(
    input_features,
    # Optionally set language=None here instead to auto-detect.
    language=processor.tokenizer.decode(SALT_LANGUAGE_TOKENS_WHISPER[lang]),
    forced_decoder_ids=None)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

print(transcription)
# Ekikoola kya kasooli kya kyenvu wabula langi yaakyo etera okuba eya kitaka wansi.

高级用法

文档未提及高级用法相关代码示例，故跳过此部分。

📚 详细文档

训练情况

该模型使用了SALT数据集、Common Voice（卢干达语、斯瓦希里语、基尼亚卢旺达语）、Google FLEURS和Makerere Yogera数据集进行训练。为了帮助模型在实际应用中更好地泛化，训练过程中添加了随机噪声，并随机降采样到8kHz以模拟电话语音。此外，还添加了从乌干达城市地区采样的街道噪声，以提高模型的鲁棒性。

性能指标

该模型在SALT文本以及Common Voice（斯瓦希里语、基尼亚卢旺达语）和Yogera（托罗语、卢索加语）的保留数据集上进行了评估，具体指标如下：

指标	英语	卢干达语	阿乔利语	卢格巴拉语	阿泰索语	尼扬科勒语	卢马萨巴语	卢索加语	斯瓦希里语	基尼亚卢旺达语	平均
WER	0.018	0.142	0.195	0.189	0.202	0.234	0.461	0.453	0.069	0.111	0.207
CER	0.009	0.029	0.045	0.045	0.051	0.043	0.092	0.081	0.015	0.031	0.044

模型信息

属性	详情
模型类型	whisper-large-v3-salt-plus-xog-myx-kin-swa-continued
训练数据	SALT数据集、Common Voice（卢干达语、斯瓦希里语、基尼亚卢旺达语）、Google FLEURS和Makerere Yogera数据集