wav2vec2-xls-r-300m-japaneseオープンソースモデル - 無料で日本語音声を精度良く文字起こしする

ホーム

Wav2vec2 Xls R 300m Japanese

AndrewMcDowellによって開発

これはfacebook/wav2vec2 - xls - r - 300mをベースに、日本語Common Voice 8.0データセットで微調整された自動音声認識(ASR)モデルで、日本語の音声を文字に変換する機能をサポートしています。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #平仮名出力 #低CER最適化

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

このモデルは日本語音声認識タスクに特化して最適化されており、日本語の音声を平仮名と片仮名のテキストに変換することができます。日本語の表記特性上、モデル評価では主に文字誤り率(CER)が使用され、単語誤り率(WER)ではなくなっています。

モデル特徴

日本語専用最適化

日本語の音声特性に特化して訓練と最適化が行われ、平仮名と片仮名の出力をサポートします

漢字を仮名に変換する処理

pykakasiライブラリを使用して漢字を平仮名に変換し、認識タスクを簡素化します

大規模事前学習の基礎

facebookのwav2vec2 - xls - r - 300mモデルを微調整しており、強力な音声特徴抽出能力を備えています

モデル能力

日本語音声認識

音声をテキストに変換

連続音声処理

使用事例

音声文字起こし

日本語音声の文字起こし

日本語の音声内容をテキスト形式に変換します

Common Voice 8.0テストセットで23.64%のCERを達成しました

音声アシスタント

日本語音声指令の認識

日本語の音声コマンドを認識し理解します

🚀 XLS-R-300-m 日本語音声認識モデル

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA データセットで facebook/wav2vec2-xls-r-300m をファインチューニングしたモデルです。学習と評価の際には pykakasi ライブラリを使用して漢字をひらがなに変換します。モデルはひらがなとカタカナの文字を出力できます。空白がないため、WER は性能評価の適切な指標ではなく、CER がより適しています。

🚀 クイックスタート

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA データセットでファインチューニングされています。以下に、いくつかの評価結果を示します。

評価結果

mozilla-foundation/common_voice_8_0 での結果:
- cer: 23.64%
speech-recognition-community-v2/dev_data での結果:
- cer: 30.99%
評価セットでの結果:
- Loss: 0.5212
- Wer: 1.3068

📚 ドキュメント

モデルの詳細

このモデルは、facebook/wav2vec2-xls-r-300m をベースに、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA データセットでファインチューニングされています。学習と評価の際には pykakasi ライブラリを使用して漢字をひらがなに変換します。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

属性	详情
learning_rate	7.5e-05
train_batch_size	48
eval_batch_size	8
seed	42
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type	linear
lr_scheduler_warmup_steps	2000
num_epochs	50.0
mixed_precision_training	Native AMP

学習結果

Training Loss	Epoch	Step	Validation Loss	Wer
4.0974	4.72	1000	4.0178	1.9535
2.1276	9.43	2000	0.9301	1.2128
1.7622	14.15	3000	0.7103	1.5527
1.6397	18.87	4000	0.6729	1.4269
1.5468	23.58	5000	0.6087	1.2497
1.4885	28.3	6000	0.5786	1.3222
1.451	33.02	7000	0.5726	1.3768
1.3912	37.74	8000	0.5518	1.2497
1.3617	42.45	9000	0.5352	1.2694
1.3113	47.17	10000	0.5228	1.2781

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価する場合

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-300m-japanese --dataset mozilla-foundation/common_voice_8_0 --config ja --split test --log_outputs

mozilla-foundation/common_voice_8_0 の test スプリットで評価する場合

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-300m-japanese --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0