xlsr_kurmanji_kurdish開源自動語音識別模型 - 精準識別庫爾曼吉庫爾德語語音

首頁

Xlsr Kurmanji Kurdish

由Akashpb13開發

該模型是基於facebook/wav2vec2-xls-r-300m在庫爾曼吉庫爾德語數據集上微調的自動語音識別模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #庫爾曼吉方言ASR #低CER語音識別 #多方言魯棒性

下載量 60

發布時間 : 3/2/2022

模型概述

這是一個針對庫爾曼吉庫爾德語優化的自動語音識別模型，基於wav2vec2-xls-r-300m架構微調，在Common Voice數據集上表現良好。

模型特點

庫爾曼吉方言支持

專門針對庫爾曼吉庫爾德語方言優化的語音識別能力

高效訓練

採用混合精度訓練和餘弦退火學習率調度器優化訓練過程

多數據集整合

整合了Common Voice多個子集的數據進行訓練，提高模型魯棒性

模型能力

庫爾曼吉庫爾德語語音識別

自動語音轉文本

多方言支持

使用案例

語音轉寫

庫爾德語語音轉錄

將庫爾曼吉方言的語音內容轉換為文本

在Common Voice測試集上WER為0.3307

語音助手

庫爾德語語音交互

為庫爾德語用戶提供語音控制界面

🚀 Akashpb13/xlsr_kurmanji_kurdish

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在評估集（由訓練數據集的10%與無效數據、報告數據、其他數據和開發數據集合並而成）上取得了以下結果：

損失：0.292389
詞錯誤率（Wer）：0.388585

✨ 主要特性

支持自動語音識別任務。
基於facebook的wav2vec2 - xls - r - 300m模型進行微調。
在特定的庫爾德語數據集上進行訓練，具有一定的針對性。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

評估命令示例

對`mozilla - foundation/common_voice_8_0`數據集的`test`分割進行評估

python eval.py --model_id Akashpb13/xlsr_kurmanji_kurdish --dataset mozilla - foundation/common_voice_8_0 --config kmr --split test

📚 詳細文檔

模型描述

對“facebook/wav2vec2 - xls - r - 300m”進行了微調。

預期用途與限制

需要更多信息。

訓練和評估數據

訓練數據：Common voice Kurmanji Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。僅考慮那些贊成票多於反對票的點，並且在將Common voice 7.0中給出的所有數據集連接起來後去除了重複項。

訓練過程

為了創建訓練數據集，將所有可能的數據集進行了合併，並採用了90 - 10的分割方式。

訓練超參數

訓練期間使用了以下超參數：

學習率：0.000096
訓練批次大小：16
評估批次大小：16
隨機種子：13
梯度累積步數：16
學習率調度器類型：cosine_with_restarts
學習率調度器熱身步數：200
訓練輪數：100
混合精度訓練：Native AMP

訓練結果

步驟	訓練損失	驗證損失	詞錯誤率（Wer）
200	4.382500	3.183725	1.000000
400	2.870200	0.996664	0.781117
600	0.609900	0.333755	0.445052
800	0.326800	0.305729	0.403157
1000	0.255000	0.290734	0.391621
1200	0.226300	0.292389	0.388585

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.1
Tokenizers 0.10.3

🔧 技術細節

文檔未提供足夠的技術實現細節，故跳過此章節。

📄 許可證

本項目採用Apache - 2.0許可證。

📊 模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	Common voice Kurmanji Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv
評估數據集	mozilla - foundation/common_voice_8_0、speech - recognition - community - v2/dev_data
評估指標	詞錯誤率（Wer）、字符錯誤率（CER）
評估結果	在Common Voice 8數據集上，Test WER為0.33073206986250464，Test CER為0.08035244447163924；在Robust Speech Event - Dev Data數據集上，Test WER為0.33073206986250464，Test CER為0.08035244447163924