wav2vec2-xls-r-300m-japanese無料でオープンソース！日本語の音声を平仮名テキストに高効率で文字起こしする

ホーム

Wav2vec2 Xls R 300m Japanese

vitouphyによって開発

これはfacebook/wav2vec2-xls-r-300mをファインチューニングした日本語自動音声認識モデルで、日本語の音声を平仮名テキストに転写するために特化しています。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #平仮名転写 #多方言適応

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

このモデルはmozilla - foundation/common_voice_8_0データセットでファインチューニングされた日本語音声認識モデルで、日本語の音声を平仮名に変換する能力を特に最適化しています。

モデル特徴

平仮名転写最適化

日本語の音声を平仮名に変換する能力を特に最適化し、pykakasiを使用してすべてのテキストを平仮名に変換します。

複数データセット検証

Common Voice 8やロバスト音声イベントなどの複数のデータセットで検証されています。

言語モデルサポート

言語モデル(LM)を使用して認識精度を向上させることをサポートしています。

モデル能力

日本語音声認識

音声からテキストへの変換

平仮名転写

使用事例

音声転写

日本語音声を文字に変換

日本語の音声内容を平仮名テキストに変換します。

CER 0.2754 (Common Voice 8テストセット)

音声内容分析

日本語の音声内容を分析し、処理可能なテキスト形式に変換します。

CER 0.2487 (ロバスト音声イベント開発セット)

🚀 XLS-R-300M - 日本語

このモデルは、日本語の形式の1つであるひらがなに音声を文字起こしするためのものです。このモデルは、mozilla-foundation/common_voice_8_0データセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。

🚀 クイックスタート

このモデルは、音声を日本語のひらがなに変換するために使用できます。以下の手順で結果を達成しています。

eval.pyをユースケースに合わせて修正します。
漢字とカタカナはひらがなと同じ音を持つため、pykakasiを使用してすべてのテキストをひらがなに変換し、fugashiを使用してトークン化します。

評価セットでは、以下の結果を達成しています。

損失: 0.7751
文字誤り率 (CER): 0.2227

📚 詳細ドキュメント

評価結果 (./eval.pyを実行)

モデル	指標	Common-Voice-8/test	speech-recognition-community-v2/dev-data
LMなし	単語誤り率 (WER)	0.5964	0.5532
	文字誤り率 (CER)	0.2944	0.2629
LMあり	単語誤り率 (WER)	0.5405	0.4877
	文字誤り率 (CER)	0.2754	0.2487

モデルの詳細

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習時には、以下のハイパーパラメータが使用されました。

学習率: 5e-05
学習バッチサイズ: 8
評価バッチサイズ: 8
乱数シード: 42
勾配累積ステップ: 4
総学習バッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 1000
学習ステップ: 4000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	文字誤り率 (CER)
4.4081	1.6	500	4.0983	1.0
3.303	3.19	1000	3.3563	1.0
3.1538	4.79	1500	3.2066	0.9239
2.1526	6.39	2000	1.1597	0.3355
1.8726	7.98	2500	0.9023	0.2505
1.7817	9.58	3000	0.8219	0.2334
1.7488	11.18	3500	0.7915	0.2222
1.7039	12.78	4000	0.7751	0.2227
停止 & 再学習
1.6571	15.97	5000	0.6788	0.1685
1.520400	19.16	6000	0.6095	0.1409
1.448200	22.35	7000	0.5843	0.1430
1.385400	25.54	8000	0.5699	0.1263
1.354200	28.73	9000	0.5686	0.1219
1.331500	31.92	10000	0.5502	0.1144
1.290800	35.11	11000	0.5371	0.1140
停止 & 再学習
1.235200	38.30	12000	0.5394	0.1106