wav2vec2-xls-r-300m-japanese免費開源！高效將日語音頻轉錄為平假名文本

Wav2vec2 Xls R 300m Japanese

由vitouphy開發

這是一個基於facebook/wav2vec2-xls-r-300m微調的日語自動語音識別模型，專門用於將日語音頻轉錄為平假名文本。

下載量 29

發布時間 : 3/2/2022

模型概述

該模型是在mozilla-foundation/common_voice_8_0數據集上微調的日語語音識別模型，特別優化了將日語語音轉換為平假名的能力。

平假名轉錄優化

專門優化了將日語語音轉換為平假名的能力，使用pykakasi將所有文本轉換為平假名

多數據集驗證

在Common Voice 8和魯棒語音事件等多個數據集上進行了驗證

語言模型支持

支持使用語言模型(LM)來提高識別準確率

日語語音識別

音頻轉文本

平假名轉錄

語音轉錄

日語語音轉文字

將日語語音內容轉換為平假名文本

CER 0.2754 (Common Voice 8測試集)

語音內容分析

分析日語語音內容並轉換為可處理的文本格式

CER 0.2487 (魯棒語音事件開發集)

本模型用於將音頻轉錄為日語的一種形式——平假名。它基於mozilla-foundation/common_voice_8_0數據集，對facebook/wav2vec2-xls-r-300m模型進行了微調。

屬性	詳情
模型類型	用於自動語音識別的微調模型
訓練數據	mozilla-foundation/common_voice_8_0

本模型在評估集上取得了以下結果：

運行./eval.py的評估結果如下：

模型	指標	Common-Voice-8/test	speech-recognition-community-v2/dev-data
無語言模型	詞錯誤率（WER）	0.5964	0.5532
	字符錯誤率（CER）	0.2944	0.2629
有語言模型	詞錯誤率（WER）	0.5405	0.4877
	字符錯誤率（CER）	0.2754	0.2487

該模型通過以下方式取得上述結果：

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字符錯誤率（Cer）
4.4081	1.6	500	4.0983	1.0
3.303	3.19	1000	3.3563	1.0
3.1538	4.79	1500	3.2066	0.9239
2.1526	6.39	2000	1.1597	0.3355
1.8726	7.98	2500	0.9023	0.2505
1.7817	9.58	3000	0.8219	0.2334
1.7488	11.18	3500	0.7915	0.2222
1.7039	12.78	4000	0.7751	0.2227
停止並重新訓練
1.6571	15.97	5000	0.6788	0.1685
1.520400	19.16	6000	0.6095	0.1409
1.448200	22.35	7000	0.5843	0.1430
1.385400	25.54	8000	0.5699	0.1263
1.354200	28.73	9000	0.5686	0.1219
1.331500	31.92	10000	0.5502	0.1144
1.290800	35.11	11000	0.5371	0.1140
停止並重新訓練
1.235200	38.30	12000	0.5394	0.1106