whisper-large-v3-turbo-esオープンソースのスペイン語音声認識モデル

ホーム

Whisper Large V3 Turbo Es

adriszmarによって開発

Whisper-large-v3-turboをファインチューニングしたスペイン語音声認識モデル。Common Voice 17.0スペイン語データセットで単語誤り率を5.34%まで低減

音声認識

Transformers

スペイン語オープンソースライセンス:MIT #スペイン語音声文字起こし #低単語誤り率 #音声認識最適化

ダウンロード数 52

リリース時間 : 10/6/2024

モデル概要

スペイン語に最適化された自動音声認識(ASR)モデルで、スペイン語の音声を正確にテキストに変換可能

モデル特徴

スペイン語最適化

スペイン語専用にファインチューニングされ、基本モデル比で単語誤り率22.7%低減

効率的なトレーニング

混合精度トレーニングを採用し、5000ステップ以内で最適化完了

オープンソースライセンス

MITライセンスを採用し、商用・研究利用が可能

モデル能力

スペイン語音声文字起こし

長時間音声認識

多様なアクセント対応

使用事例

音声からテキストへ

スペイン語会議議事録

スペイン語会議内容を自動文字起こし

正確率94.66% (WER 5.34%)

ポッドキャスト文字起こし

スペイン語ポッドキャスト内容をテキスト原稿に変換

支援技術

聴覚障害者支援

聴覚障害ユーザー向けリアルタイム字幕提供

🚀 Whisper Large V3 Turbo - スペイン語

このモデルは、Common Voice 17.0データセットのスペイン語サブセットでopenai/whisper-large-v3-turboをファインチューニングしたバージョンです。

ファインチューニングの過程で、単語誤り率（WER）が6.91%から5.34%に低下し、スペイン語の音声の文字起こし精度が大幅に向上したことが示されています。

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

このモデルは、Common Voice 17.0データセットのスペイン語サブセット（mozilla-foundation/common_voice_17_0）を使用して学習されました。ベースモデルであるwhisper-large-v3-turboとファインチューニングされたモデルであるwhisper-large-v3-turbo-esの両方が、同じデータセットのテスト分割に対して単語誤り率（WER）を使用して評価されました。結果は以下の通りです。