wav2vec2-xls-r-1b-日本語ひらがな・カタカナオープンソースモデル - 無料で日本語の音声をテキストに変換する

ホーム

Wav2vec2 Xls R 1b Japanese Hiragana Katakana

AndrewMcDowellによって開発

これはCommon Voice 8.0データセットを基に訓練された日本語自動音声認識（ASR）モデルで、日本語音声をテキストに変換するタスクをサポートします。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声をテキストに変換 #多様なシーンでの音声認識 #高い文字認識率

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルは日本語音声認識に特化しており、日本語の口語をテキストに変換するアプリケーションシーンに適しています。

モデル特徴

日本語音声認識

日本語に特化して最適化された音声認識能力

Common Voiceデータセットを基に

Mozilla Common Voice 8.0の日本語データセットを使用して訓練

多様なシーンでの評価

Common Voiceとロバスト音声イベントデータセットで性能評価を行った

モデル能力

日本語音声認識

音声をテキストに変換

使用事例

音声文字起こし

日本語会議の記録

日本語の会議録音を自動的に文字起こしする

CER 22.27 - 32.69（データセットによって異なる）

音声アシスタント

日本語音声コマンドの認識

日本語の音声コマンドを認識する

null

🚀 自動音声認識モデル

このモデルは、自動音声認識タスクに特化したモデルです。MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JAデータセットで微調整されており、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、facebook/wav2vec2-xls-r-1b をMOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JAデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5500
単語誤り率 (Wer): 1.0132
文字誤り率 (Cer): 0.1609

📚 ドキュメント

モデルの詳細

詳細情報は今後追加予定です。

想定される用途と制限

詳細情報は今後追加予定です。

学習と評価データ

詳細情報は今後追加予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 7.5e-05
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配蓄積ステップ (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 128
オプティマイザ (optimizer): Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1500
エポック数 (num_epochs): 50.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
1.7019	12.65	1000	1.0510	0.9832	0.2589
1.6385	25.31	2000	0.6670	0.9915	0.1851
1.4344	37.97	3000	0.6183	1.0213	0.1797

フレームワークのバージョン

Transformers: 4.17.0.dev0
Pytorch: 1.10.2+cu102
Datasets: 1.18.2.dev0
Tokenizers: 0.11.0

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価する場合

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1b-japanese-hiragana-katakana --dataset mozilla-foundation/common_voice_8_0 --config ja --split test --log_outputs

speech-recognition-community-v2/dev_data の validation スプリットで評価する場合

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1b-japanese-hiragana-katakana --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0