whisper-large-v3-turbo-common_voice_19_0-zh-TW開源模型 - 精準實現繁體中文（臺灣）語音識別

首頁

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

由JacobLinCool開發

基於OpenAI Whisper-large-v3-turbo微調的繁體中文（臺灣）自動語音識別模型

語音識別

Transformers

中文開源協議:MIT #繁體中文語音識別 #低詞錯誤率 #臺灣口音優化

下載量 220

發布時間 : 10/31/2024

模型概述

這是一個針對繁體中文（臺灣）優化的自動語音識別模型，基於Common Voice 19.0臺灣中文數據集微調，支持無需提示的語音轉文字任務。

模型特點

繁體中文優化

專門針對臺灣地區繁體中文語音進行優化訓練

大規模數據集

使用比標準Common Voice數據集大4倍的訓練數據（約50k樣本）

無需提示

設計為無需額外提示即可直接使用的ASR模型

繼承Whisper能力

保留了原始Whisper模型的語言識別和支持多種中文變體的能力

模型能力

自動語音識別

繁體中文語音轉錄

語音轉文字

使用案例

語音轉錄

會議記錄

將臺灣地區的中文會議錄音自動轉換為文字記錄

詞錯誤率32.56%，字符錯誤率8.60%

語音備忘錄

將日常語音備忘錄轉換為可搜索的文字內容

無障礙應用

即時字幕生成

為臺灣地區的視頻內容生成即時中文字幕

🚀 whisper-large-v3-turbo-common_voice_19_0-zh-TW

本模型是基於transformers庫微調的語音識別模型，在繁體中文（臺灣）自動語音識別任務上表現出色，能有效將語音轉換為文字。

🚀 快速開始

本模型是 openai/whisper-large-v3-turbo 在 JacobLinCool/common_voice_19_0_zh-TW 數據集上的微調版本。它在評估集上取得了以下結果：

損失率（Loss）：0.1786
詞錯誤率（Wer）：32.5554
字符錯誤率（Cer）：8.6009
解碼運行時間（Decode Runtime）：90.9833
詞錯誤率運行時間（Wer Runtime）：0.1257
字符錯誤率運行時間（Cer Runtime）：0.1534

✨ 主要特性

開源易用：這是一個開源的繁體中文（臺灣）自動語音識別（ASR）模型，遵循 MIT 許可證，可免費使用。
特定語言適配：專為繁體中文設計的免提示 ASR 模型。不過，由於繼承了 Whisper 的語言識別（LID）系統，在處理簡體中文時性能可能會下降。

📚 詳細文檔

模型描述

這是一個開源的繁體中文（臺灣）自動語音識別（ASR）模型。

預期用途與限制

本模型旨在成為一個免提示的繁體中文 ASR 模型。由於它繼承了 Whisper 的語言識別（LID）系統，該系統在同一語言標記（zh）下支持其他中文語言變體，因此我們預計在轉錄簡體中文時性能可能會下降。

該模型在 MIT 許可證下可免費使用。

訓練和評估數據

本模型在 Common Voice Corpus 19.0 Chinese (Taiwan) Subset 上進行訓練，該數據集包含約 50k 個訓練示例（44 小時）和 5k 個測試示例（5 小時）。這個數據集比 mozilla-foundation/common_voice_16_1 的訓練集和驗證集（train+validation）的組合大四倍，後者包含約 12k 個示例。

訓練過程

Tensorboard

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：0.0002
訓練批次大小（train_batch_size）：4
評估批次大小（eval_batch_size）：32
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：8
總訓練批次大小（total_train_batch_size）：32
優化器：使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e-08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：50
訓練步數（training_steps）：5000

訓練結果

訓練損失率	輪數	步數	驗證損失率	詞錯誤率	字符錯誤率	解碼運行時間	詞錯誤率運行時間	字符錯誤率運行時間
無記錄	0	0	2.7208	76.5011	20.4851	89.4916	0.1213	0.1639
1.1832	0.1	500	0.1939	39.9561	10.8721	90.0926	0.1222	0.1555
1.5179	0.2	1000	0.1774	37.6621	9.9322	89.8657	0.1225	0.1545
0.6179	0.3	1500	0.1796	36.2657	9.8325	90.2480	0.1198	0.1573
0.3626	1.0912	2000	0.1846	36.2258	9.7801	90.3306	0.1196	0.1539
0.1311	1.1912	2500	0.1776	34.8095	9.3214	90.3124	0.1286	0.1610
0.1263	1.2912	3000	0.1763	36.1261	9.3563	90.4271	0.1330	0.1650
0.2194	2.0825	3500	0.1891	34.6898	9.3114	91.1932	0.1320	0.1643
0.1127	2.1825	4000	0.1838	34.0714	9.1095	90.2416	0.1196	0.1529
0.3792	2.2824	4500	0.1786	33.1339	8.7679	90.9144	0.1310	0.1550
0.0606	3.0737	5000	0.1786	32.5554	8.6009	90.9833	0.1257	0.1534