whisper-large-v2-Ko開源韓語語音識別模型 - 免費部署精準識別韓語語音

首頁

Whisper Large V2 Ko

由byoussef開發

基於OpenAI Whisper-large-v2微調的韓語自動語音識別(ASR)模型，在韓語數據集上表現出色

語音識別

Transformers

韓語開源協議:Apache-2.0 #韓語語音識別 #低詞錯誤率 #多GPU訓練

下載量 94

發布時間 : 3/10/2023

模型概述

該模型是OpenAI Whisper-large-v2的韓語微調版本，專門針對韓語語音識別任務進行了優化，在Zeroth Korean數據集上取得了2.9%的詞錯誤率(WER)

模型特點

低詞錯誤率

在韓語測試集上僅2.9%的詞錯誤率，表現優異

多GPU訓練

使用7塊GPU進行高效訓練，總訓練批次大小達224

優化的訓練過程

採用線性學習率調度和500步預熱，訓練50輪達到最佳效果

模型能力

韓語語音識別

語音轉文本

高準確率轉錄

使用案例

語音轉錄

韓語會議記錄

將韓語會議錄音自動轉錄為文本

高準確率的文字記錄

韓語語音助手

為韓語語音助手提供語音識別能力

準確的語音指令識別

教育

韓語學習應用

幫助韓語學習者檢查發音準確性

提供準確的發音反饋

🚀 whisper-large-v2-Ko

本模型是基於 openai/whisper-large-v2 在特定數據集上微調的版本，可用於自動語音識別任務，在評估集上取得了較好的效果。

🚀 快速開始

本模型是 openai/whisper-large-v2 在None數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.0617
字錯率（Wer）：2.9

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別
基礎模型	openai/whisper-large-v2
訓練數據集	Bingsu/zeroth-korean、google/fleurs（韓語配置）
評估指標	字錯率（Wer）

評估結果

任務	數據集	字錯率（Wer）
自動語音識別	Bingsu/zeroth-korean	2.9
自動語音識別	google/fleurs（韓語配置，測試集）	20.66

訓練過程

訓練指標

訓練輪數（epoch）：50.0
訓練損失（train_loss）：0.0234
訓練總時長（train_runtime）：16:20:18.00
訓練樣本數（train_samples）：22262
每秒訓練樣本數（train_samples_per_second）：19.042
每秒訓練步數（train_steps_per_second）：0.085

訓練超參數

學習率（learning_rate）：1e-05
訓練批次大小（train_batch_size）：32
評估批次大小（eval_batch_size）：16
隨機種子（seed）：42
分佈式類型（distributed_type）：多GPU
設備數量（num_devices）：7
總訓練批次大小（total_train_batch_size）：224
總評估批次大小（total_eval_batch_size）：112
優化器（optimizer）：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練步數（training_steps）：5000
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.0299	10.0	1000	0.0745	0.0447
0.0085	20.0	2000	0.0608	0.0353
0.0036	30.0	3000	0.0593	0.0302
0.0013	40.0	4000	0.0609	0.0282
0.0008	50.0	5000	0.0617	0.0290

框架版本

Transformers：4.27.0.dev0
Pytorch：1.12.1+cu113
Datasets：2.10.1
Tokenizers：0.13.2

📄 許可證

本模型採用Apache-2.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫