voice - clone - large - finetune - final開源語音克隆模型，精準用於語音識別任務！

Voice Clone Large Finetune Final

由neuronbit開發

該模型是基於openai/whisper-large-v3微調的語音克隆模型，主要用於語音識別任務，在評估集上詞錯誤率為15.3572。

下載量 37

發布時間 : 11/27/2024

模型概述

基於Whisper-large-v3微調的語音識別模型，專注於提高特定場景下的語音識別準確率。

低詞錯誤率

在評估集上達到15.3572的詞錯誤率，表現優於許多通用語音識別模型

精細調優

基於Whisper-large-v3進行深度微調，適應特定語音識別場景

高效訓練

採用混合精度訓練和梯度累積等技術，優化訓練效率

語音識別

語音轉文字

音頻內容分析

語音轉錄

會議記錄

自動將會議錄音轉換為文字記錄

詞錯誤率15.3572

語音筆記

將語音備忘錄轉換為可搜索的文本

語音分析

語音內容分析

分析音頻內容並提取關鍵信息

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.1607	0.8460	250	0.5163	25.9413
0.0598	1.6920	500	0.4849	24.8444
0.0257	2.5381	750	0.4450	30.4180
0.0141	3.3841	1000	0.4369	19.3003
0.0029	4.2301	1250	0.4267	16.0095
0.0015	5.0761	1500	0.4209	18.4109
0.0063	5.9222	1750	0.4259	19.3300
0.0016	6.7682	2000	0.4341	17.7587
0.0009	7.6142	2250	0.4121	17.0471
0.0013	8.4602	2500	0.4199	16.3653
0.0009	9.3063	2750	0.4233	16.5135
0.001	10.1523	3000	0.4237	16.0688
0.0019	10.9983	3250	0.4230	16.4542
0.0014	11.8443	3500	0.4292	15.8316
0.0007	12.6904	3750	0.4291	15.8316
0.0005	13.5364	4000	0.4321	15.3869
0.0009	14.3824	4250	0.4334	15.2980
0.001	15.2284	4500	0.4344	15.2980
0.0	16.0745	4750	0.4372	15.3572
0.0	16.9205	5000	0.4377	15.3572

屬性	詳情
庫名稱	transformers
許可證	Apache-2.0
基礎模型	openai/whisper-large-v3
標籤	generated_from_trainer
評估指標	wer
模型名稱	voice-clone-large-finetune-final