wav2vec2-xls-r-1b-japaneseオープンソースモデル - 日本語自動音声認識をサポート

ホーム

Wav2vec2 Xls R 1b Japanese

vumichienによって開発

このモデルは、facebook/wav2vec2-xls-r-1bを公共の日本語音声データセットで微調整したバージョンで、日本語の自動音声認識タスクをサポートします。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #低CER性能 #複数データセットの微調整

ダウンロード数 50

リリース時間 : 3/2/2022

モデル概要

これは日本語に最適化された自動音声認識モデルで、wav2vec2-xls-r-1bアーキテクチャに基づき、Common Voiceなどの日本語音声データセットで微調整されています。

モデル特徴

高性能な日本語認識

Common Voice 7.0テストセットで7.98%のWERと3.42%のCERを達成しました。

複数データセットによる訓練

Common Voice、JUST、JSSS、CSS10などの複数の日本語音声データセットを統合しています。

言語モデルのサポート

4-gram言語モデルと組み合わせて使用でき、認識精度を大幅に向上させます。

モデル能力

日本語音声認識

音声をテキストに変換

長い音声データの処理をサポート

使用事例

音声文字起こし

日本語音声を文字に変換

日本語の音声内容をテキストに変換します。

Common Voiceテストセットで7.88 - 7.98%の単語誤り率を達成しました。

音声分析

日本語音声内容の分析

日本語の音声内容を分析し、重要な情報を抽出します。

🚀 wav2vec2-xls-r-1b 日本語音声認識モデル

このモデルは、日本語の自動音声認識タスクに特化したモデルです。複数の公開データセットを用いて微調整され、高い精度で音声をテキストに変換することができます。

🚀 クイックスタート

評価の実行

評価を行うには、以下のコマンドを実行してください。

pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

✨ 主な機能

日本語の自動音声認識に特化した微調整済みモデル
複数の公開データセットを用いて訓練され、高い精度を実現

📚 ドキュメント

モデルの説明

このモデルは、facebook/wav2vec2-xls-r-1b を、複数の公開日本語音声データセット Common Voice 7.0、JUST、JSSS、CSS10 を用いて微調整したものです。前処理データセットは VUMICHIEN/COMMON_VOICE_LARGE_JSUT_JSSS_CSS10 で確認できます。

総訓練データ

約60時間

ベンチマーク WER 結果

	COMMON VOICE 7.0	COMMON VOICE 8.0
LM なし	10.96	10.91
4-gram LM あり	7.98	7.88

ベンチマーク CER 結果

	COMMON VOICE 7.0	COMMON VOICE 8.0
LM なし	4.28	4.22
4-gram LM あり	3.42	3.35

訓練手順

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 5e-05
train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 1000
num_epochs: 100.0
mixed_precision_training: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	Wer	Cer
2.2896	3.37	1500	0.4748	0.4013	0.1767
1.1608	6.74	3000	0.3350	0.3159	0.1456
1.1042	10.11	4500	0.3119	0.2971	0.1400
1.0494	13.48	6000	0.2974	0.2867	0.1353
1.0061	16.85	7500	0.2802	0.2746	0.1300
0.9629	20.22	9000	0.2844	0.2776	0.1326
0.9267	23.59	10500	0.2577	0.2603	0.1255
0.8984	26.96	12000	0.2508	0.2531	0.1226
0.8729	30.34	13500	0.2629	0.2606	0.1254
0.8546	33.71	15000	0.2402	0.2447	0.1193
0.8304	37.08	16500	0.2532	0.2472	0.1209
0.8075	40.45	18000	0.2439	0.2469	0.1198
0.7827	43.82	19500	0.2387	0.2372	0.1167
0.7627	47.19	21000	0.2344	0.2331	0.1147
0.7402	50.56	22500	0.2314	0.2299	0.1135
0.718	53.93	24000	0.2257	0.2267	0.1114
0.7016	57.3	25500	0.2204	0.2184	0.1089
0.6804	60.67	27000	0.2227	0.2181	0.1085
0.6625	64.04	28500	0.2138	0.2112	0.1058
0.6465	67.42	30000	0.2141	0.2081	0.1044
0.6238	70.79	31500	0.2172	0.2082	0.1050
0.6062	74.16	33000	0.2174	0.2058	0.1043
0.588	77.53	34500	0.2156	0.2034	0.1027
0.5722	80.9	36000	0.2162	0.2032	0.1029
0.5585	84.27	37500	0.2156	0.2022	0.1021
0.5456	87.64	39000	0.2126	0.1993	0.1009
0.5325	91.01	40500	0.2121	0.1966	0.1003
0.5229	94.38	42000	0.2104	0.1941	0.0991
0.5134	97.75	43500	0.2108	0.1948	0.0992

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

🔧 技術詳細

モデルの性能指標

タスク	データセット	評価指標	値
音声認識	Common Voice 7.0	Test WER (with LM)	7.98
音声認識	Common Voice 7.0	Test CER (with LM)	3.42
音声認識	Common Voice 8.0	Test WER (with LM)	7.88
音声認識	Common Voice 8.0	Test CER (with LM)	3.35
音声認識	Robust Speech Event - Dev Data	Test WER (with LM)	28.07
音声認識	Robust Speech Event - Dev Data	Test CER (with LM)	16.27
音声認識	Robust Speech Event - Test Data	Test CER	19.89