wav2vec2-large-xls-r-300m-as-v9開源模型 - 支持阿薩姆語自動語音識別

首頁

Wav2vec2 Large Xls R 300m As V9

由DrishtiSharma開發

基於facebook/wav2vec2-xls-r-300m在阿薩姆語(Common Voice 8.0)數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #阿薩姆語語音識別 #低資源語言處理 #XLS-R架構優化

下載量 20

發布時間 : 3/2/2022

模型概述

這是一個針對阿薩姆語的自動語音識別(ASR)模型，基於wav2vec2架構的大規模預訓練模型微調而來，適用於語音轉文本任務。

模型特點

阿薩姆語優化

專門針對阿薩姆語進行微調，在該語言上具有較好的識別性能

大規模預訓練基礎

基於facebook/wav2vec2-xls-r-300m預訓練模型，具有強大的語音特徵提取能力

多場景適應

在Common Voice數據集上訓練，能夠適應多種語音場景

模型能力

阿薩姆語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

阿薩姆語語音轉寫

將阿薩姆語語音內容轉換為文本

在Common Voice 8.0測試集上WER為61.64%

語音助手

阿薩姆語語音交互

支持阿薩姆語語音指令識別

🚀 wav2vec2-large-xls-r-300m-as-v9

本模型是在通用語音數據集（common_voice dataset）上對 facebook/wav2vec2-xls-r-300m 進行微調後的版本。它在自動語音識別任務中表現出色，為語音識別領域提供了有力的支持。

✨ 主要特性

多數據集適配：支持 mozilla-foundation/common_voice_8_0 等多個數據集。
多指標評估：使用 WER（詞錯誤率）和 CER（字符錯誤率）等指標進行評估。

📦 安裝指南

文檔未提供安裝步驟，跳過該章節。

💻 使用示例

文檔未提供代碼示例，跳過該章節。

📚 詳細文檔

模型信息

屬性	詳情
語言	as
許可證	apache-2.0
標籤	automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、as、robust-speech-event、model_for_talk、hf-asr-leaderboard
數據集	mozilla-foundation/common_voice_8_0

模型評估結果

模型名稱

wav2vec2-large-xls-r-300m-as-v9

評估結果

任務	數據集	測試 WER	測試 CER
自動語音識別	Common Voice 8 (hsb)	0.6163737676810973	0.19496397642093005
自動語音識別	Robust Speech Event - Dev Data (as)	NA	NA
自動語音識別	Common Voice 8.0 (as)	61.64	未提供

評估命令

在 mozilla-foundation/common_voice_8_0 測試集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-as-v9 --dataset mozilla-foundation/common_voice_8_0 --config as --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上進行評估

⚠️ 重要提示

阿薩姆語（as）在 speech-recognition-community-v2/dev_data 數據集中不可用。

訓練超參數

學習率：0.000111
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：300
訓練輪數：200
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	WER
8.3852	10.51	200	3.6402	1.0
3.5374	21.05	400	3.3894	1.0
2.8645	31.56	600	1.3143	0.8303
1.1784	42.1	800	0.9417	0.6661
0.7805	52.62	1000	0.9292	0.6237
0.5973	63.15	1200	0.9489	0.6014
0.4784	73.67	1400	0.9916	0.5962
0.4138	84.21	1600	1.0272	0.6121
0.3491	94.72	1800	1.0412	0.5984
0.3062	105.26	2000	1.0769	0.6005
0.2707	115.77	2200	1.0708	0.5752
0.2459	126.31	2400	1.1285	0.6009
0.2234	136.82	2600	1.1209	0.5949
0.2035	147.36	2800	1.1348	0.5842
0.1876	157.87	3000	1.1480	0.5872
0.1669	168.41	3200	1.1496	0.5838
0.1595	178.92	3400	1.1721	0.5778
0.1505	189.46	3600	1.1654	0.5744
0.1486	199.97	3800	1.1679	0.5761