V

Voice Clone Large Finetune Final

由neuronbit開發
該模型是基於openai/whisper-large-v3微調的語音克隆模型,主要用於語音識別任務,在評估集上詞錯誤率為15.3572。
下載量 37
發布時間 : 11/27/2024

模型概述

基於Whisper-large-v3微調的語音識別模型,專注於提高特定場景下的語音識別準確率。

模型特點

低詞錯誤率
在評估集上達到15.3572的詞錯誤率,表現優於許多通用語音識別模型
精細調優
基於Whisper-large-v3進行深度微調,適應特定語音識別場景
高效訓練
採用混合精度訓練和梯度累積等技術,優化訓練效率

模型能力

語音識別
語音轉文字
音頻內容分析

使用案例

語音轉錄
會議記錄
自動將會議錄音轉換為文字記錄
詞錯誤率15.3572
語音筆記
將語音備忘錄轉換為可搜索的文本
語音分析
語音內容分析
分析音頻內容並提取關鍵信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase