whisper-medium-frenchオープンソースフランス語音声認識モデル - 高精度な認識、オリジナル版より優れた効果

ホーム

Whisper Medium French

pierreguillouによって開発

openai/whisper-mediumをcommon_voice_11_0データセットでファインチューニングしたフランス語音声認識モデルで、標準化WERは11.1406を達成し、オリジナルモデルを上回ります。

音声認識

Transformers

フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #低単語誤り率 #Common Voiceファインチューニング

ダウンロード数 260

リリース時間 : 12/6/2022

モデル概要

このモデルはフランス語に最適化された自動音声認識(ASR)モデルで、フランス語の音声を正確にテキストに変換できます。

モデル特徴

高性能フランス語認識

Common Voice 11.0テストセットで標準化WER 11.1406を達成し、オリジナルWhisper-mediumモデルを上回ります。

最適化トレーニング

Common Voice 11.0データセットで5000ステップの精密なファインチューニングを実施し、線形学習率スケジューリングとAdamオプティマイザを使用しました。

標準化出力

標準化および非標準化の単語誤り率(WER)評価を提供し、実際のアプリケーション要件に合致したトランスクリプション結果を保証します。

モデル能力

フランス語音声認識

音声トランスクリプション

自動音声テキスト変換

使用事例

音声トランスクリプション

フランス語会議議事録

フランス語会議録音を自動的に議事録に変換

標準化WER 11.1406の高精度

フランス語メディア字幕生成

フランス語動画コンテンツに自動的に字幕を生成

学習損失	エポック	ステップ	検証損失	WER	正規化されたWER
0.2695	0.2	1000	0.3080	17.8083	12.9791
0.2099	0.4	2000	0.2981	17.4792	12.4242
0.1978	0.6	3000	0.2864	16.7767	12.0913
0.1455	0.8	4000	0.2752	16.4597	11.8966
0.1712	1.0	5000	0.2664	15.8969	11.1406

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Medium French

モデル概要

モデル特徴

モデル能力

使用事例

🚀 フランス語用ミディアムWhisperモデル

✨ 主な機能

ブログ記事

新しいSOTA

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス