whisper-large-v2-cantonese開源粵語語音識別模型 - 免費部署準確識別粵語語音

首頁

Whisper Large V2 Cantonese

由Scrya開發

基於OpenAI Whisper Large V2模型微調的粵語自動語音識別(ASR)模型，在Common Voice 11.0粵語數據集上訓練，字錯誤率(CER)為6.21%。

語音識別

Transformers

其他開源協議:Apache-2.0 #粵語語音識別 #低字錯誤率 #即時音頻增強

下載量 210

發布時間 : 12/19/2022

模型概述

這是一個專門針對粵語優化的自動語音識別模型，通過數據增強技術提升了識別準確率，適用於粵語語音轉文字場景。

模型特點

粵語優化

專門針對粵語語音特點進行微調，相比通用模型有更好的識別準確率

數據增強

訓練時使用音高偏移和時間拉伸等音頻增強技術，提升模型魯棒性

低錯誤率

在Common Voice粵語測試集上達到6.21%的字錯誤率(CER)

模型能力

粵語語音識別

語音轉文字

音頻轉錄

使用案例

語音轉錄

粵語會議記錄

將粵語會議錄音自動轉換為文字記錄

準確率約93.79%(CER 6.21%)

媒體字幕生成

為粵語視頻內容自動生成字幕

語音助手

粵語語音指令識別

用於支持粵語的智能家居或語音助手系統

🚀 Whisper Large V2 - 粵語 - 增強版

本模型是 openai/whisper-large-v2 在 mozilla-foundation/common_voice_11_0 數據集上的微調版本。它在評估集上取得了以下成果：

損失率：0.1828
字符錯誤率（CER）：6.2133

🚀 快速開始

此模型為在特定數據集上微調的版本，若要使用，可參考原模型 openai/whisper-large-v2 的使用方式進行操作。

✨ 主要特性

基於 openai/whisper-large-v2 進行微調，在粵語語音識別任務上有特定表現。
訓練過程中使用 audiomentations 對數據集進行即時增強。

📚 詳細文檔

模型描述

該模型是 openai/whisper-large-v2 在粵語語音數據集上的微調版本，用於粵語的自動語音識別任務。

預期用途與限制

目前文檔未提供詳細的預期用途與限制說明。

訓練和評估數據

訓練數據：mozilla-foundation/common_voice_11_0 （訓練集 + 驗證集）
評估數據：mozilla-foundation/common_voice_11_0 （測試集）

訓練過程

使用 audiomentations 通過 PitchShift 和 TimeStretch 變換在 p = 0.3 時對數據集進行即時增強。

訓練超參數

以下是訓練過程中使用的超參數：

學習率：1e - 05
訓練批次大小：8
評估批次大小：4
隨機種子：42
梯度累積步數：4
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：100
訓練步數：1000
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字符錯誤率（CER）
0.1126	1.21	200	0.1666	7.3103
0.0467	2.42	400	0.1610	6.9419
0.0217	3.63	600	0.1621	6.3874
0.008	4.85	800	0.1699	6.3064
0.0023	6.06	1000	0.1828	6.2133

框架版本

Transformers 4.26.0.dev0
Pytorch 1.13.1+cu117
Datasets 2.8.1.dev0
Tokenizers 0.13.2

📄 許可證

本模型採用 Apache-2.0 許可證。

📦 模型信息

屬性	詳情
模型類型	Whisper Large V2 - 粵語 - 增強版
訓練數據	mozilla-foundation/common_voice_11_0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫