hausa - asr開源豪薩語自動語音識別模型

首頁

Hausa Asr

由Cdial開發

基於facebook/wav2vec2-xls-r-300m微調的豪薩語自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #豪薩語語音識別 #低詞錯誤率 #多場景適配

下載量 18

發布時間 : 3/2/2022

模型概述

該模型是針對豪薩語優化的自動語音識別(ASR)模型，基於XLS-R架構微調，在Common Voice豪薩語數據集上訓練

模型特點

多數據集訓練

整合了Common Voice 8.0豪薩語的全部有效數據（train/dev/invalidated/reported/other）

高質量數據篩選

僅使用支持票數高於反對票數的數據點，並去除重複項

優化訓練策略

採用帶重啟的餘弦退火學習率調度和混合精度訓練

模型能力

豪薩語語音識別

語音轉文本

魯棒語音事件檢測

使用案例

語音技術應用

豪薩語語音助手

為豪薩語用戶提供語音交互功能

語音轉錄服務

將豪薩語語音內容轉換為文字

CER 0.0436, WER 0.2061

🚀 Cdial/Hausa_xlsr

本模型是 facebook/wav2vec2-xls-r-300m 的微調版本。它在評估集（訓練數據集的 10% 與無效數據、報告數據、其他數據和開發數據集合並）上取得了以下結果：

損失值：0.275118
詞錯誤率（Wer）：0.329955

✨ 主要特性

適用於豪薩語的自動語音識別任務。
基於預訓練模型 facebook/wav2vec2-xls-r-300m 進行微調。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

文檔未提供代碼示例，暫不提供。

📚 詳細文檔

模型描述

對 "facebook/wav2vec2-xls-r-300m" 進行了微調。

預期用途與限制

需要更多信息。

訓練和評估數據

訓練數據：Common voice 豪薩語的 train.tsv、dev.tsv、invalidated.tsv、reported.tsv 和 other.tsv。僅考慮那些贊成票多於反對票的點，並且在合併 Common voice 7.0 中給出的所有數據集後去除了重複項。

訓練過程

為了創建訓練數據集，將所有可能的數據集進行了追加，並採用了 90 - 10 的分割。

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：0.000096
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：16
隨機種子（seed）：13
梯度累積步數（gradient_accumulation_steps）：2
學習率調度器類型（lr_scheduler_type）：cosine_with_restarts
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：50
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

步數	訓練損失	驗證損失	詞錯誤率（Wer）
500	5.175900	2.750914	1.000000
1000	1.028700	0.338649	0.497999
1500	0.332200	0.246896	0.402241
2000	0.227300	0.239640	0.395839
2500	0.175000	0.239577	0.373966
3000	0.140400	0.243272	0.356095
3500	0.119200	0.263761	0.365164
4000	0.099300	0.265954	0.353428
4500	0.084400	0.276367	0.349693
5000	0.073700	0.282631	0.343825
5500	0.068000	0.282344	0.341158
6000	0.064500	0.281591	0.342491

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

評估命令

在 mozilla-foundation/common_voice_8_0 的 test 分割上進行評估：

python eval.py --model_id Akashpb13/Hausa_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

🔧 技術細節

文檔未提供詳細技術實現細節，暫不提供。

📄 許可證

本項目採用 Apache-2.0 許可證。

模型指標信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	Common voice 豪薩語的 train.tsv、dev.tsv、invalidated.tsv、reported.tsv 和 other.tsv

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫