Whisper-Large-v3-turbo-STT-Zeroth-KO-v2オープンソースモデル - 高精度の韓国語音声文字起こし（タイムスタンプ付き）

Whisper Large V3 Turbo STT Zeroth KO V2

o0dimplz0oによって開発

Whisper Large v3 Turboを基に最適化された韓国語自動音声認識モデルで、高精度かつタイムスタンプ付きの書き起こし結果を提供

ダウンロード数 662

リリース時間 : 2/3/2025

モデル概要

このモデルはopenai/whisper-large-v3-turboの最適化バージョンで、韓国語自動音声認識(ASR)タスクに特化して微調整されており、高精度な音声書き起こし機能を提供することを目的としています。

韓国語最適化

韓国語音声認識に特化して微調整されており、より高い書き起こし精度を提供

タイムスタンプ対応

書き起こし結果にタイムスタンプ情報を含み、音声コンテンツの位置特定が容易

増分微調整

段階的な増分微調整戦略を採用し、モデル性能を継続的に最適化

データ拡張

トレーニング過程で20%のランダムデータ拡張を適用し、モデルの頑健性を向上

韓国語音声認識

タイムスタンプ付き書き起こし

高精度音声テキスト変換

音声書き起こし

韓国語会議議事録

韓国語会議録音を自動でタイムスタンプ付きテキストに書き起こし

単語誤り率19.9134%、文字誤り率0.0660%

韓国語メディア字幕生成

韓国語動画コンテンツに自動で字幕を生成

音声分析

韓国語音声コンテンツ分析

韓国語音声コンテンツを分析し、キー情報を抽出

プロパティ	詳細
ライブラリ名	transformers
評価指標	wer、cer
モデル名	Fine-Tuned-Whisper-Large-v3-Turbo-STT-Zeroth-KO-v2
データセット	o0dimplz0o/Zeroth-STT-Korean
言語	ko
ベースモデル	openai/whisper-large-v3-turbo
パイプラインタグ	automatic-speech-recognition