whisper-medium-ko-zerothオープンソース音声認識モデル - 韓国語認識の誤り率が低く、無料で利用可能！

Whisper Medium Ko Zeroth

seastar105によって開発

OpenAI Whisper MediumモデルをZeroth韓国語データセットでファインチューニングした音声認識モデル、単語誤り率3.64%

ダウンロード数 154

リリース時間 : 12/11/2022

モデル概要

これは韓国語に最適化された自動音声認識(ASR)モデルで、Whisper Mediumアーキテクチャを基にファインチューニングされており、韓国語音声からテキストへの変換タスクに適しています

低単語誤り率

Zeroth韓国語テストセットで3.64%の単語誤り率を達成

韓国語最適化

韓国語音声データに特化してファインチューニングされ、認識精度が向上

Whisperアーキテクチャ採用

OpenAI Whisperの先進的な音声認識アーキテクチャを採用

韓国語音声認識

音声からテキストへの変換

自動音声認識

音声書き起こし

韓国語会議議事録

韓国語会議録音を自動的に文字記録に変換

高精度な書き起こしテキスト

韓国語字幕生成

韓国語動画コンテンツに自動的に字幕を生成

3.64%単語誤り率の正確な字幕

音声アシスタント

韓国語音声コマンド認識

韓国語音声アシスタントシステムの音声コマンド理解に使用

高精度なコマンド認識

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
0.0873	0.72	1000	0.1086	7.7549	2.5597
0.0258	1.44	2000	0.0805	4.5475	1.7588
0.0091	2.16	3000	0.0719	3.7946	1.5664
0.0086	2.88	4000	0.0704	3.5537	1.5232
0.0019	3.59	5000	0.0727	3.6440	1.4840