wav2vec2-common_voice-tr-demo-dist開源語音識別模型

首頁

Wav2vec2 Common Voice Tr Demo Dist

由cromz22開發

該模型是基於facebook/wav2vec2-large-xlsr-53在COMMON_VOICE - TR土耳其語數據集上微調的自動語音識別(ASR)模型，在評估集上取得了0.3242的詞錯誤率。

語音識別

Transformers

其他開源協議:Apache-2.0 #土耳其語音識別 #多GPU訓練 #低詞錯誤率

下載量 26

發布時間 : 5/18/2022

模型概述

一個針對土耳其語的自動語音識別模型，基於wav2vec2架構微調，適用於將土耳其語語音轉換為文本的任務。

模型特點

土耳其語優化

專門針對土耳其語語音數據進行微調，在土耳其語識別任務上表現良好

基於wav2vec2架構

採用facebook的wav2vec2-large-xlsr-53作為基礎模型，具有強大的語音特徵提取能力

多GPU訓練

使用4個GPU進行分佈式訓練，提高了訓練效率

模型能力

土耳其語語音識別

語音轉文本

使用案例

語音轉錄

土耳其語語音轉錄

將土耳其語語音內容轉換為文本

詞錯誤率0.3242

語音助手

土耳其語語音指令識別

用於土耳其語語音助手系統中的語音指令識別

🚀 wav2vec2-common_voice-tr-demo-dist

這個模型是 facebook/wav2vec2-large-xlsr-53 在 COMMON_VOICE - TR 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.3848
字錯率（Wer）：0.3242

🚀 快速開始

本部分暫未提供相關內容。

✨ 主要特性

本部分暫未提供相關內容。

📦 安裝指南

本部分暫未提供相關內容。

💻 使用示例

本部分暫未提供相關內容。

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：0.0003
訓練批次大小：4
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
設備數量：4
總訓練批次大小：16
總評估批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：15.0
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.5279	0.46	100	3.6260	1.0
3.1065	0.92	200	3.0854	0.9999
1.4111	1.38	300	1.3343	0.8839
0.8468	1.83	400	0.6920	0.6826
0.6242	2.29	500	0.6001	0.5996
0.4181	2.75	600	0.5655	0.5680
0.4311	3.21	700	0.4478	0.5003
0.3601	3.67	800	0.4548	0.5011
0.2756	4.13	900	0.4444	0.4682
0.2373	4.59	1000	0.4111	0.4432
0.1831	5.05	1100	0.4178	0.4447
0.2423	5.5	1200	0.3881	0.4277
0.2128	5.96	1300	0.3865	0.4018
0.1256	6.42	1400	0.3818	0.4137
0.1038	6.88	1500	0.3739	0.3942
0.1662	7.34	1600	0.3938	0.3929
0.198	7.8	1700	0.3831	0.3837
0.0728	8.26	1800	0.3910	0.3867
0.123	8.72	1900	0.3722	0.3735
0.0776	9.17	2000	0.3938	0.3725
0.1597	9.63	2100	0.3786	0.3697
0.1124	10.09	2200	0.3947	0.3590
0.0965	10.55	2300	0.3952	0.3562
0.0612	11.01	2400	0.3810	0.3476
0.0764	11.47	2500	0.3734	0.3507
0.0973	11.93	2600	0.3935	0.3472
0.0649	12.39	2700	0.3672	0.3413
0.0542	12.84	2800	0.3732	0.3369
0.087	13.3	2900	0.3833	0.3458
0.0196	13.76	3000	0.3761	0.3303
0.0548	14.22	3100	0.3855	0.3274
0.0577	14.68	3200	0.3893	0.3238