whisper-large-v2-spanishオープンソース音声認識モデル - スペイン語の音声内容を高精度に認識

Whisper Large V2 Spanish

Sandiago21によって開発

OpenAI Whisper-large-v2モデルをCommon Voice 13.0スペイン語データセットでファインチューニングした音声認識モデル

ダウンロード数 38

リリース時間 : 8/2/2023

モデル概要

このモデルはスペイン語に特化して最適化された自動音声認識(ASR)モデルで、Common Voiceスペイン語テストセットで9.93%の単語誤り率(WER)を達成しました。

スペイン語最適化

スペイン語音声認識タスクに特化してファインチューニングされており、オリジナルのWhisperモデルよりもスペイン語認識で優れた性能を発揮します

低単語誤り率

Common Voiceスペイン語テストセットでわずか9.93%の単語誤り率を達成し、優れた性能を示しています

Whisperアーキテクチャベース

Whisper-large-v2モデルの強力な音声認識能力を継承しています

スペイン語音声からテキストへの変換

長い音声の処理

ノイズ環境下での音声認識

音声文字起こし

スペイン語会議議事録

スペイン語の会議録音を自動的に文字起こし

高精度な文字起こしテキスト

メディア字幕生成

スペイン語動画コンテンツの自動字幕生成

手作業での字幕作成時間の削減

音声アシスタント

スペイン語音声コマンド認識

スペイン語対応スマートホームや車載システムの音声コマンド認識に使用

スペイン語ユーザーのインタラクション体験向上

学習損失	エポック	ステップ	検証損失	正書法誤り率 (Wer Ortho)	単語誤り率 (Wer)
0.2074	1.0	1752	0.2511	0.1628	0.1211
0.1323	2.0	3504	0.2414	0.1439	0.0993

プロパティ	詳細
モデルタイプ	このモデルは、openai/whisper-large-v2 を common_voice_13_0 データセットでファインチューニングしたものです。
学習データ	common_voice_13_0
評価指標	Wer
ベースモデル	openai/whisper-large-v2