whisper-large-v3-cantonese开源模型 - 免费实现粤语自动语音识别

首页

Whisper Large V3 Cantonese

由 khleeloo 开发

基于Whisper v3微调的粤语自动语音识别模型，在Common Voice 17数据集上训练

语音识别

Transformers

其他开源协议:Apache-2.0 #粤语语音识别 #Whisper微调 #低字符错误率

下载量 25

发布时间 : 12/4/2024

模型简介

本模型是基于Whisper v3模型进行微调的版本，专门针对粤语(Yue)的自动语音识别(ASR)任务训练。适用于语音助手、转录服务等应用场景。

模型特点

粤语语音识别

专门针对粤语优化的语音识别能力

Whisper v3架构

基于OpenAI强大的Whisper v3模型架构

高效微调

在Common Voice 17数据集上进行了10个epoch的微调

模型能力

粤语语音转文本

自动语音识别

语音转录

使用案例

语音助手

粤语语音助手

为粤语用户提供语音交互功能

转录服务

粤语语音转录

将粤语语音内容转换为文本

无障碍功能

粤语无障碍服务

为粤语使用者提供语音转文本的无障碍功能

🚀 粤语语音识别微调模型

本模型是Whisper v3模型的微调版本，专门为粤语的自动语音识别（ASR）任务进行训练。它在Common Voice 17数据集上进行了10个轮次的微调，学习率为1e - 7。

🚀 快速开始

要使用此模型，你可以使用Hugging Face Transformers库加载它：

from transformers import WhisperProcessor, WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")

✨ 主要特性

特定语言优化：专门针对粤语进行微调，适用于粤语语音识别任务。
多场景应用：可用于语音助手、转录服务以及为粤语使用者提供的无障碍功能等多种应用场景。

📦 安装指南

暂未提供具体安装步骤，可参考Hugging Face Transformers库的官方文档进行安装。

💻 使用示例

基础用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")

📚 详细文档

模型详情

属性	详情
模型架构	Whisper v3
语言	粤语（Yue）
训练数据集	Common Voice 17
训练轮数	10个轮次
学习率	1e - 7
冻结层	训练期间解码器中的12层被冻结

模型描述

这是一个🤗 transformers模型的模型卡片，已被推送到Hugging Face Hub，此模型卡片是自动生成的。

开发者：khleeloo (Rita Frieske)
语言（NLP）：粤语
许可证：apache - 2.0
微调基础模型：openai/whisper - large - v3

用途

此模型适用于对构建需要粤语语音识别功能的应用程序感兴趣的研究人员和开发者。它可用于多种应用，包括：

语音助手
转录服务
为粤语使用者提供的无障碍功能

偏差、风险和局限性

该模型是专门针对粤语进行微调的，在其他语言或方言上的表现可能不佳。
性能可能会因音频输入的质量和口音而有所不同。
模型的有效性取决于训练数据的多样性和丰富性。

训练

训练数据

mozilla - foundation/common_voice_17_0

评估

测试数据、因素和指标

使用Common Voice_17_0粤语测试集、Common Voice 15_0粤语测试集和Common Voice 15_0繁体中文（香港）测试集（这些测试数据集用于评估Whisper 3.0）。

指标

由于粤语是基于字符的语言，因此使用字符错误率（CER）作为评估指标。

结果

模型	CV15_0 繁体中文（香港）	CV 15_0 粤语	CV 17_0 粤语
Whisper large v3	10.8	16	-
Whisper cantonese (ours)	18.88	8.77	7.26

解释：由于这是一个语音识别模型，我们的模型没有在包含更多书面粤语的繁体中文（香港）数据上进行训练，而是在更多口语化的粤语版本（Yue）上进行训练。因此，在Common Voice数据集的繁体中文（香港）分割上表现较弱。

引用

BibTeX：

@misc {rita_frieske_2025,
    author       = { {Rita Frieske} },
    title        = { whisper-large-v3-cantonese },
    year         = 2025,
    url          = { https://huggingface.co/khleeloo/whisper-large-v3-cantonese },
    doi          = { 10.57967/hf/4393 },
    publisher    = { Hugging Face }
}