whisper-large-v2-pl-v2オープンソース音声認識モデル - 無料でポーランド語の音声を高精度にテキストに変換

Whisper Large V2 Pl V2

bardsaiによって開発

Whisper Large v2をポーランド語データセットでファインチューニングした自動音声認識モデルで、ポーランド語音声からテキストへの変換タスクをサポートします。

ダウンロード数 217

リリース時間 : 12/14/2022

モデル概要

これはポーランド語に特化して最適化された自動音声認識(ASR)モデルで、Common Voice 11.0とFLEURSデータセットでファインチューニングされており、ポーランド語音声を正確にテキストに変換できます。

高精度ポーランド語認識

Common Voice 11.0テストセットで7.28%の単語誤り率(WER)を達成し、優れた性能を発揮

複数データセットでのトレーニング

Common Voice 11.0とFLEURSの2つの高品質ポーランド語データセットを使用してトレーニング

最適化されたトレーニングプロセス

慎重に設計されたトレーニングハイパーパラメータと勾配蓄積戦略を採用し、トレーニング効果を確保

ポーランド語音声認識

音声からテキストへの変換

自動音声文字起こし

音声文字起こし

会議議録の自動化

ポーランド語会議録音を自動的に文字記録に変換

高精度な文字起こしテキスト

メディア字幕生成

ポーランド語動画コンテンツに自動的に字幕を生成

低誤り率の字幕出力

音声アシスタント

ポーランド語音声コマンド認識

ポーランド語音声アシスタントシステムでのコマンド理解に使用

高精度なコマンド認識

このモデルは、Common Voice 11.0とFLEURSデータセットでbardsai/whisper-large-v2-plをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは自動音声認識タスクに使用できます。以下に、データセットと評価指標に関する情報を示します。

プロパティ	詳細
言語	ポーランド語 (pl)
タグ	whisper-event, generated_from_trainer
データセット	mozilla-foundation/common_voice_11_0, google/fleurs
評価指標	wer

Common Voice 11.0 (テストセット, pl)
- 単語誤り率 (WER): 7.280175959972464
- 未正規化の単語誤り率 (WER unnormalized): 20.18
- 文字誤り率 (CER): 2.08
- マッチング誤り率 (MER): 7.27
facebook/voxpopuli (テストセット, pl)
- 単語誤り率 (WER): 9.61
- 未正規化の単語誤り率 (WER unnormalized): 30.33
- 文字誤り率 (CER): 5.5
- マッチング誤り率 (MER): 9.45
google/fleurs (テストセット, pl_pl)
- 単語誤り率 (WER): 8.68
- 未正規化の単語誤り率 (WER unnormalized): 29.33
- 文字誤り率 (CER): 3.63
- マッチング誤り率 (MER): 8.62