wav2vec2-xlsr-georgian開源模型 - 支持格魯吉亞語的自動語音識別

首頁

Wav2vec2 Xlsr Georgian

由sammy786開發

該模型是基於facebook/wav2vec2-xls-r-1b在格魯吉亞語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #格魯吉亞語語音識別 #多場景語音轉寫 #低詞錯誤率

下載量 19

發布時間 : 3/2/2022

模型概述

基於wav2vec2-xls-r-1b架構的格魯吉亞語自動語音識別模型，在Common Voice 8數據集上微調

模型特點

高性能語音識別

在Common Voice 8格魯吉亞語測試集上達到23.9%的詞錯誤率(WER)

大規模預訓練

基於10億參數的wav2vec2-xls-r-1b模型微調

多場景適應

在對話和魯棒語音事件數據集上進行了評估

模型能力

格魯吉亞語語音轉文本

自動語音識別

對話語音處理

使用案例

語音轉寫

格魯吉亞語語音轉錄

將格魯吉亞語語音轉換為文本

在Common Voice測試集上WER 23.9%

對話系統

格魯吉亞語對話處理

處理格魯吉亞語對話語音

在魯棒語音事件測試集上WER 74.41%

🚀 sammy786/wav2vec2-xlsr-georgian

本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 數據集上的微調版本。它在評估集（訓練數據集的 10% 與其他和開發數據集合並而成）上取得了以下結果：

損失：10.54
詞錯誤率（Wer）：27.53

🚀 快速開始

評估命令

在 mozilla-foundation/common_voice_8_0 數據集的 test 分割上進行評估：

python eval.py --model_id sammy786/wav2vec2-xlsr-georgian --dataset mozilla-foundation/common_voice_8_0 --config ka --split test

✨ 主要特性

基於預訓練模型 facebook/wav2vec2-xls-r-1b 進行微調，適用於自動語音識別任務。
在多個數據集上進行了評估，展示了一定的性能指標。

📚 詳細文檔

模型描述

對 "facebook/wav2vec2-xls-r-1b" 進行了微調。

預期用途與限制

更多信息待補充。

訓練和評估數據

訓練數據：Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。

訓練過程

為創建訓練數據集，將所有可能的數據集進行合併，並採用 90 - 10 的分割比例。

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.000045637994662983496
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：16
隨機種子（seed）：13
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e - 08
學習率調度器類型（lr_scheduler_type）：cosine_with_restarts
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：30
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

步驟	訓練損失	驗證損失	詞錯誤率（Wer）
200	4.152100	0.823672	0.967814
400	0.889500	0.196740	0.444792
600	0.493700	0.155659	0.366115
800	0.328000	0.138066	0.358069
1000	0.260600	0.119236	0.324989
1200	0.217200	0.114050	0.313366
1400	0.188800	0.112600	0.302190
1600	0.166900	0.111154	0.295485
1800	0.155500	0.109963	0.286544
2000	0.140400	0.107587	0.277604
2200	0.142600	0.105662	0.277157
2400	0.135400	0.105414	0.275369

框架版本

Transformers：4.16.0.dev0
Pytorch：1.10.0+cu102
Datasets：1.17.1.dev0
Tokenizers：0.10.3

🔧 技術細節

本模型是在預訓練模型 facebook/wav2vec2-xls-r-1b 的基礎上，使用 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 數據集進行微調。在訓練過程中，對多個超參數進行了調整，以達到較好的性能。通過將不同的數據集合並並進行分割，創建了訓練集和評估集。在訓練過程中，使用了 Adam 優化器和 cosine_with_restarts 學習率調度器，並採用了混合精度訓練來提高訓練效率。

📄 許可證

本模型採用 Apache-2.0 許可證。

📦 模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件
評估數據集	mozilla-foundation/common_voice_8_0、speech-recognition-community-v2/dev_data、speech-recognition-community-v2/eval_data
評估指標	詞錯誤率（Wer）、字符錯誤率（CER）
測試集 Wer	在不同數據集上分別為 23.9、75.07、74.41
測試集 CER	3.59