whisper-large-v2-mix-jpオープンソースモデル - 無料でデプロイして高精度の日本語音声認識を実現

ホーム

Whisper Large V2 Mix Jp

vumichienによって開発

OpenAI Whisper-large-v2モデルを日本語音声データセットでファインチューニングした自動音声認識(ASR)モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #日本語音声認識 #低い単語誤り率 #複数データセットのファインチューニング

ダウンロード数 93

リリース時間 : 12/19/2022

モデル概要

このモデルはWhisper-large-v2の日本語最適化バージョンで、日本語音声認識タスクに特化してファインチューニングされており、単語誤り率(WER)と文字誤り率(CER)の指標で優れた性能を発揮します。

モデル特徴

日本語最適化

JSUT、JSSS、CSS10およびCommon Voice日本語データセットで特化してファインチューニングされ、日本語音声認識性能を最適化

低い誤り率

テストセットで7.65%の単語誤り率(WER)と4.72%の文字誤り率(CER)を達成

効率的なトレーニング

混合精度トレーニングと勾配累積技術を採用し、トレーニング効率を最適化

モデル能力

日本語音声からテキストへの変換

高精度音声認識

長い音声処理

使用事例

音声文字起こし

日本語会議議事録

日本語会議録音を自動的に文字記録に変換

約92.35%の精度 (1-WERベース)

日本語メディア字幕生成

日本語動画コンテンツに自動的に字幕を生成

音声アシスタント

日本語音声コマンド認識

日本語音声アシスタントシステムの音声コマンド理解に使用

🚀 openai/whisper-large-v2

このモデルは、vumichien/preprocessed_jsut_jsss_css10_common_voice_11データセットでopenai/whisper-large-v2をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2284
単語誤り率 (Wer): 7.6453
文字誤り率 (Cer): 4.7187

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 1e-05
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
学習ステップ数 (training_steps): 10000
混合精度学習 (mixed_precision_training): ネイティブAMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
0.1912	0.55	1000	0.1828	11.2314	7.0357
0.1329	1.1	2000	0.1618	9.4172	5.9028
0.0912	1.65	3000	0.1616	8.9257	5.4711
0.0576	2.2	4000	0.1664	8.5861	5.3055
0.0449	2.74	5000	0.1642	8.4510	5.2930
0.02	3.29	6000	0.1799	8.1537	5.0354
0.019	3.84	7000	0.1801	8.125	5.0827
0.0067	4.39	8000	0.2003	7.8412	4.8133
0.006	4.94	9000	0.2071	7.5811	4.7023
0.0022	5.49	10000	0.2284	7.6453	4.7187

フレームワークバージョン

Transformers: 4.26.0.dev0
Pytorch: 1.13.0+cu117
Datasets: 2.7.1.dev0
Tokenizers: 0.13.2

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📊 モデル情報

属性	詳情
モデルタイプ	オープンAIのWhisper-large-v2をファインチューニングしたモデル
学習データ	vumichien/preprocessed_jsut_jsss_css10_common_voice_11
評価指標	単語誤り率 (Wer)、文字誤り率 (Cer)
ベースモデル	openai/whisper-large-v2