wav2vec2-xls-r-1b-japanese開源模型 - 支持日語自動語音識別

首頁

Wav2vec2 Xls R 1b Japanese

由vumichien開發

該模型是基於facebook/wav2vec2-xls-r-1b在公共日語語音數據集上進行微調的版本，支持日語自動語音識別任務。

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #低CER表現 #多數據集微調

下載量 50

發布時間 : 3/2/2022

模型概述

這是一個針對日語優化的自動語音識別模型，基於wav2vec2-xls-r-1b架構，在Common Voice等日語語音數據集上微調而成。

模型特點

高性能日語識別

在Common Voice 7.0測試集上達到7.98%的WER和3.42%的CER

多數據集訓練

融合了Common Voice、JUST、JSSS和CSS10等多個日語語音數據集

支持語言模型

可配合4-gram語言模型使用，顯著提升識別準確率

模型能力

日語語音識別

語音轉文本

支持長音頻處理

使用案例

語音轉錄

日語語音轉文字

將日語語音內容轉換為文本

在Common Voice測試集上達到7.88-7.98%的詞錯誤率

語音分析

日語語音內容分析

分析日語語音內容，提取關鍵信息

🚀 日語語音識別模型 wav2vec2-xls-r-1b

本模型基於facebook/wav2vec2-xls-r-1b進行微調，使用了多個公開的日語語音數據集進行訓練，可用於日語語音識別任務，在多個基準測試中表現良好。

🚀 快速開始

評估模型

使用以下命令運行評估：

pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

✨ 主要特性

基於facebook/wav2vec2-xls-r-1b模型進行微調，適用於日語語音識別。
使用多個公開的日語語音數據集進行訓練，包括Common Voice 7.0、JUST、JSSS和CSS10等。
在多個基準測試中取得了較好的WER（詞錯誤率）和CER（字符錯誤率）結果。

📚 詳細文檔

模型描述

該模型是 facebook/wav2vec2-xls-r-1b 在多個公開日語語音數據集上的微調版本，這些數據集包括 Common Voice 7.0、JUST（東京大學猿渡實驗室的日語語音語料庫）、JSSS（用於摘要和簡化的日語語音語料庫）、CSS10（單說話人語音數據集集合）。預處理數據集可在 VUMICHIEN/COMMON_VOICE_LARGE_JSUT_JSSS_CSS10 中找到。

總訓練數據

約60小時

基準測試WER結果

	COMMON VOICE 7.0	COMMON VOICE 8.0
無語言模型	10.96	10.91
4-gram語言模型	7.98	7.88

基準測試CER結果

	COMMON VOICE 7.0	COMMON VOICE 8.0
無語言模型	4.28	4.22
4-gram語言模型	3.42	3.35

評估

請使用eval.py文件運行評估：

pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-05
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：4
總訓練批次大小：64
優化器：Adam，β=(0.9, 0.999)，ε=1e-08
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：100.0
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（WER）	字符錯誤率（CER）
2.2896	3.37	1500	0.4748	0.4013	0.1767
1.1608	6.74	3000	0.3350	0.3159	0.1456
1.1042	10.11	4500	0.3119	0.2971	0.1400
1.0494	13.48	6000	0.2974	0.2867	0.1353
1.0061	16.85	7500	0.2802	0.2746	0.1300
0.9629	20.22	9000	0.2844	0.2776	0.1326
0.9267	23.59	10500	0.2577	0.2603	0.1255
0.8984	26.96	12000	0.2508	0.2531	0.1226
0.8729	30.34	13500	0.2629	0.2606	0.1254
0.8546	33.71	15000	0.2402	0.2447	0.1193
0.8304	37.08	16500	0.2532	0.2472	0.1209
0.8075	40.45	18000	0.2439	0.2469	0.1198
0.7827	43.82	19500	0.2387	0.2372	0.1167
0.7627	47.19	21000	0.2344	0.2331	0.1147
0.7402	50.56	22500	0.2314	0.2299	0.1135
0.718	53.93	24000	0.2257	0.2267	0.1114
0.7016	57.3	25500	0.2204	0.2184	0.1089
0.6804	60.67	27000	0.2227	0.2181	0.1085
0.6625	64.04	28500	0.2138	0.2112	0.1058
0.6465	67.42	30000	0.2141	0.2081	0.1044
0.6238	70.79	31500	0.2172	0.2082	0.1050
0.6062	74.16	33000	0.2174	0.2058	0.1043
0.588	77.53	34500	0.2156	0.2034	0.1027
0.5722	80.9	36000	0.2162	0.2032	0.1029
0.5585	84.27	37500	0.2156	0.2022	0.1021
0.5456	87.64	39000	0.2126	0.1993	0.1009
0.5325	91.01	40500	0.2121	0.1966	0.1003
0.5229	94.38	42000	0.2104	0.1941	0.0991
0.5134	97.75	43500	0.2108	0.1948	0.0992