wav2vec2-large-xls-r-300m-sakha開源模型 - 精準識別雅庫特語語音內容

首頁

Wav2vec2 Large Xls R 300m Sakha

由infinitejoy開發

基於facebook/wav2vec2-xls-r-300m在雅庫特語(SAH)數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #雅庫特語語音識別 #低資源語言ASR #多方言魯棒性

下載量 18

發布時間 : 3/2/2022

模型概述

這是一個專門針對雅庫特語優化的自動語音識別(ASR)模型，基於XLS-R-300M架構，在Common Voice 7的雅庫特語數據集上進行了微調。

模型特點

雅庫特語優化

專門針對雅庫特語進行微調，在該語言上表現優於通用語音模型

基於XLS-R架構

採用強大的XLS-R-300M架構，具備良好的語音特徵提取能力

中等規模

300M參數規模，在性能和資源消耗之間取得平衡

模型能力

雅庫特語語音識別

語音轉文本

魯棒語音處理

使用案例

語音轉錄

雅庫特語語音轉錄

將雅庫特語語音內容轉換為文本

CER:10.271%, WER:44.196%

語音助手

雅庫特語語音交互

為雅庫特語用戶提供語音交互能力

🚀 wav2vec2-large-xls-r-300m-sakha

該模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH數據集對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下結果：

損失值：0.4995
詞錯誤率（Wer）：0.4421

✨ 主要特性

基於SAH數據集對預訓練模型進行微調，適用於自動語音識別任務。
在評估集上有特定的損失值和詞錯誤率表現。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型描述

需要更多信息。

預期用途與限制

需要更多信息。

訓練和評估數據

需要更多信息。

🔧 技術細節

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：32
評估批次大小：1
隨機種子：42
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器預熱步數：500
訓練輪數：100.0
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
1.8597	8.47	500	0.7731	0.7211
1.2508	16.95	1000	0.5368	0.5989
1.1066	25.42	1500	0.5034	0.5533
1.0064	33.9	2000	0.4686	0.5114
0.9324	42.37	2500	0.4927	0.5056
0.876	50.85	3000	0.4734	0.4795
0.8082	59.32	3500	0.4748	0.4799
0.7604	67.8	4000	0.4949	0.4691
0.7241	76.27	4500	0.5090	0.4627
0.6739	84.75	5000	0.4967	0.4452
0.6447	93.22	5500	0.5071	0.4437

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

📄 許可證

本模型使用Apache - 2.0許可證。

模型信息表格

屬性	詳情
模型類型	基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH數據集微調的wav2vec2 - large - xls - r - 300m模型
訓練數據	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH數據集
語言	薩哈語（sah）
標籤	自動語音識別、mozilla - foundation/common_voice_7_0、generated_from_trainer、sah、robust - speech - event、model_for_talk、hf - asr - leaderboard
評估結果	損失：0.4995；Wer：0.4421