whisper-large-v2-mix-jp開源模型 - 免費部署實現高精度日語語音識別

Whisper Large V2 Mix Jp

由vumichien開發

基於OpenAI Whisper-large-v2模型在日語語音數據集上微調的自動語音識別(ASR)模型

下載量 93

發布時間 : 12/19/2022

模型概述

該模型是Whisper-large-v2的日語優化版本，專門針對日語語音識別任務進行了微調，在詞錯誤率(WER)和字錯誤率(CER)指標上表現優異。

日語優化

在JSUT、JSSS、CSS10和Common Voice日語數據集上專門微調，優化日語語音識別性能

低錯誤率

在測試集上達到7.65%的詞錯誤率(WER)和4.72%的字錯誤率(CER)

高效訓練

採用混合精度訓練和梯度累積技術，優化訓練效率

日語語音轉文本

高精度語音識別

長音頻處理

語音轉錄

日語會議記錄

將日語會議錄音自動轉換為文字記錄

準確率約92.35% (基於1-WER)

日語媒體字幕生成

為日語視頻內容自動生成字幕

語音助手

日語語音指令識別

用於日語語音助手系統的語音指令理解

屬性	詳情
模型類型	此模型是 openai/whisper-large-v2 在 vumichien/preprocessed_jsut_jsss_css10_common_voice_11 數據集上的微調版本
訓練數據	vumichien/preprocessed_jsut_jsss_css10_common_voice_11
評估指標	字錯率（Wer）、字符錯誤率（Cer）
基礎模型	openai/whisper-large-v2

任務	數據集	字錯率（Wer）	字符錯誤率（Cer）
自動語音識別	mozilla-foundation/common_voice_11_0 ja	7.6453	4.7187
自動語音識別	google/fleurs ja_jp	11.69	7.12

訓練損失	輪數	步數	驗證損失	字錯率（Wer）	字符錯誤率（Cer）
0.1912	0.55	1000	0.1828	11.2314	7.0357
0.1329	1.1	2000	0.1618	9.4172	5.9028
0.0912	1.65	3000	0.1616	8.9257	5.4711
0.0576	2.2	4000	0.1664	8.5861	5.3055
0.0449	2.74	5000	0.1642	8.4510	5.2930
0.02	3.29	6000	0.1799	8.1537	5.0354
0.019	3.84	7000	0.1801	8.125	5.0827
0.0067	4.39	8000	0.2003	7.8412	4.8133
0.006	4.94	9000	0.2071	7.5811	4.7023
0.0022	5.49	10000	0.2284	7.6453	4.7187