whisper-large-v3-ft-cv16-mn開源語音識別模型

Whisper Large V3 Ft Cv16 Mn

由sanchit-gandhi開發

基於OpenAI Whisper Large V3模型在Common Voice 16.0數據集上微調的語音識別模型

下載量 34

發布時間 : 1/22/2024

模型概述

該模型是OpenAI Whisper Large V3的微調版本，專注於自動語音識別(ASR)任務，在Common Voice數據集上取得了35.22%的詞錯誤率。

高精度語音識別

在Common Voice測試集上取得35.22%的詞錯誤率，表現優異

多語言支持

基於Whisper架構，具備處理多種語言的能力

高效微調

在基礎模型上進行針對性訓練，提升特定領域的識別準確率

語音轉文本

多語言語音識別

長音頻處理

語音轉錄

會議記錄自動生成

將會議錄音自動轉換為文字記錄

準確率約65%(基於WER指標推斷)

播客字幕生成

為播客內容自動生成字幕

輔助技術

聽力障礙輔助

即時語音轉文字輔助聽障人士

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
0.1552	4.35	500	0.5883	51.6576
0.007	8.7	1000	0.4691	35.2228

屬性	詳情
基礎模型	openai/whisper-large-v3
標籤	generated_from_trainer
數據集	common_voice_16_0
評估指標	wer
任務	自動語音識別（Automatic Speech Recognition）
評估數據集	common_voice_16_0（配置：mn，分割：測試，參數：mn）
評估結果（Wer）	35.22282608695652