🚀 粤语语音识别微调模型
本模型是Whisper v3模型的微调版本,专门为粤语的自动语音识别(ASR)任务进行训练。它在Common Voice 17数据集上进行了10个轮次的微调,学习率为1e - 7。
🚀 快速开始
要使用此模型,你可以使用Hugging Face Transformers库加载它:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
✨ 主要特性
- 特定语言优化:专门针对粤语进行微调,适用于粤语语音识别任务。
- 多场景应用:可用于语音助手、转录服务以及为粤语使用者提供的无障碍功能等多种应用场景。
📦 安装指南
暂未提供具体安装步骤,可参考Hugging Face Transformers库的官方文档进行安装。
💻 使用示例
基础用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
📚 详细文档
模型详情
属性 |
详情 |
模型架构 |
Whisper v3 |
语言 |
粤语(Yue) |
训练数据集 |
Common Voice 17 |
训练轮数 |
10个轮次 |
学习率 |
1e - 7 |
冻结层 |
训练期间解码器中的12层被冻结 |
模型描述
这是一个🤗 transformers模型的模型卡片,已被推送到Hugging Face Hub,此模型卡片是自动生成的。
- 开发者:khleeloo (Rita Frieske)
- 语言(NLP):粤语
- 许可证:apache - 2.0
- 微调基础模型:openai/whisper - large - v3
用途
此模型适用于对构建需要粤语语音识别功能的应用程序感兴趣的研究人员和开发者。它可用于多种应用,包括:
偏差、风险和局限性
- 该模型是专门针对粤语进行微调的,在其他语言或方言上的表现可能不佳。
- 性能可能会因音频输入的质量和口音而有所不同。
- 模型的有效性取决于训练数据的多样性和丰富性。
训练
训练数据
- mozilla - foundation/common_voice_17_0
评估
测试数据、因素和指标
使用Common Voice_17_0粤语测试集、Common Voice 15_0粤语测试集和Common Voice 15_0繁体中文(香港)测试集(这些测试数据集用于评估Whisper 3.0)。
指标
由于粤语是基于字符的语言,因此使用字符错误率(CER)作为评估指标。
结果
模型 |
CV15_0 繁体中文(香港) |
CV 15_0 粤语 |
CV 17_0 粤语 |
Whisper large v3 |
10.8 |
16 |
- |
Whisper cantonese (ours) |
18.88 |
8.77 |
7.26 |
解释:由于这是一个语音识别模型,我们的模型没有在包含更多书面粤语的繁体中文(香港)数据上进行训练,而是在更多口语化的粤语版本(Yue)上进行训练。因此,在Common Voice数据集的繁体中文(香港)分割上表现较弱。
引用
BibTeX:
@misc {rita_frieske_2025,
author = { {Rita Frieske} },
title = { whisper-large-v3-cantonese },
year = 2025,
url = { https://huggingface.co/khleeloo/whisper-large-v3-cantonese },
doi = { 10.57967/hf/4393 },
publisher = { Hugging Face }
}
模型卡片作者
khleeloo个人主页