🚀 粵語語音識別微調模型
本模型是Whisper v3模型的微調版本,專門為粵語的自動語音識別(ASR)任務進行訓練。它在Common Voice 17數據集上進行了10個輪次的微調,學習率為1e - 7。
🚀 快速開始
要使用此模型,你可以使用Hugging Face Transformers庫加載它:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
✨ 主要特性
- 特定語言優化:專門針對粵語進行微調,適用於粵語語音識別任務。
- 多場景應用:可用於語音助手、轉錄服務以及為粵語使用者提供的無障礙功能等多種應用場景。
📦 安裝指南
暫未提供具體安裝步驟,可參考Hugging Face Transformers庫的官方文檔進行安裝。
💻 使用示例
基礎用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型架構 |
Whisper v3 |
語言 |
粵語(Yue) |
訓練數據集 |
Common Voice 17 |
訓練輪數 |
10個輪次 |
學習率 |
1e - 7 |
凍結層 |
訓練期間解碼器中的12層被凍結 |
模型描述
這是一個🤗 transformers模型的模型卡片,已被推送到Hugging Face Hub,此模型卡片是自動生成的。
- 開發者:khleeloo (Rita Frieske)
- 語言(NLP):粵語
- 許可證:apache - 2.0
- 微調基礎模型:openai/whisper - large - v3
用途
此模型適用於對構建需要粵語語音識別功能的應用程序感興趣的研究人員和開發者。它可用於多種應用,包括:
偏差、風險和侷限性
- 該模型是專門針對粵語進行微調的,在其他語言或方言上的表現可能不佳。
- 性能可能會因音頻輸入的質量和口音而有所不同。
- 模型的有效性取決於訓練數據的多樣性和豐富性。
訓練
訓練數據
- mozilla - foundation/common_voice_17_0
評估
測試數據、因素和指標
使用Common Voice_17_0粵語測試集、Common Voice 15_0粵語測試集和Common Voice 15_0繁體中文(香港)測試集(這些測試數據集用於評估Whisper 3.0)。
指標
由於粵語是基於字符的語言,因此使用字符錯誤率(CER)作為評估指標。
結果
模型 |
CV15_0 繁體中文(香港) |
CV 15_0 粵語 |
CV 17_0 粵語 |
Whisper large v3 |
10.8 |
16 |
- |
Whisper cantonese (ours) |
18.88 |
8.77 |
7.26 |
解釋:由於這是一個語音識別模型,我們的模型沒有在包含更多書面粵語的繁體中文(香港)數據上進行訓練,而是在更多口語化的粵語版本(Yue)上進行訓練。因此,在Common Voice數據集的繁體中文(香港)分割上表現較弱。
引用
BibTeX:
@misc {rita_frieske_2025,
author = { {Rita Frieske} },
title = { whisper-large-v3-cantonese },
year = 2025,
url = { https://huggingface.co/khleeloo/whisper-large-v3-cantonese },
doi = { 10.57967/hf/4393 },
publisher = { Hugging Face }
}
模型卡片作者
khleeloo個人主頁