whisper-small-tajik開源模型 - 免費實現精準塔吉克語自動語音識別

首頁

Whisper Small Tajik

由abduaziz開發

基於OpenAI Whisper-small微調的塔吉克語自動語音識別模型，在Google Fleurs數據集上訓練，詞錯誤率24.26%。

語音識別

Transformers

其他開源協議:Apache-2.0 #塔吉克語語音識別 #低詞錯誤率 #多語言ASR

下載量 25

發布時間 : 1/20/2025

模型概述

該模型是針對塔吉克語優化的自動語音識別(ASR)模型，適用於將塔吉克語語音轉換為文本。

模型特點

塔吉克語優化

專門針對塔吉克語進行微調，相比原始Whisper模型有更好的本地語言識別能力

高效訓練

使用相對較小的訓練批次(16)和梯度累積(2步)實現高效訓練

優化學習率調度

採用cosine學習率調度器配合0.1比例的預熱，優化訓練過程

模型能力

塔吉克語語音識別

語音轉文本

使用案例

語音轉錄

塔吉克語會議記錄

將塔吉克語會議錄音自動轉換為文字記錄

詞錯誤率約24.26%

語音助手

用於塔吉克語語音助手應用的語音識別模塊

教育

語言學習應用

幫助學習者檢查塔吉克語發音準確性

🚀 Whisper Small Tajik

Whisper Small Tajik 是一個在 Google Fleurs 數據集上對 openai/whisper-small 進行微調後的模型。該模型在自動語音識別任務中表現出色，能有效處理塔吉克語語音識別。

📚 詳細文檔

模型信息

屬性	詳情
庫名稱	transformers
語言	tg
許可證	apache - 2.0
基礎模型	openai/whisper-small
標籤	generated_from_trainer
數據集	google/fleurs
評估指標	wer

模型索引

名稱：Whisper Small Tajik
結果：
- 任務：
  - 名稱：自動語音識別
  - 類型：automatic - speech - recognition
- 數據集：
  - 名稱：Google Fleurs
  - 類型：google/fleurs
  - 配置：tg_tj
  - 分割：None
  - 參數：'config: tg, split: test'
- 指標：
  - 名稱：Wer
  - 類型：wer
  - 值：24.260635774157837

模型描述

此模型是 [openai/whisper - small](https://huggingface.co/openai/whisper - small) 在 Google Fleurs 數據集上的微調版本。在評估集上取得了以下結果：

損失：0.4141
字錯誤率（Wer）：24.2606

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：1e - 05
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：2
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：使用 adamw_torch，其中 betas = (0.9, 0.999)，epsilon = 1e - 08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：餘弦（cosine）
學習率調度器熱身比例（lr_scheduler_warmup_ratio）：0.1
訓練輪數（num_epochs）：10
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯誤率（Wer）
2.7687	1.0	79	0.5778	39.6568
0.7193	2.0	158	0.3890	28.3568
0.3659	3.0	237	0.3611	26.0636
0.2021	4.0	316	0.3629	25.1068
0.1099	5.0	395	0.3740	25.3044
0.0597	6.0	474	0.3887	24.3081
0.0339	7.0	553	0.4005	24.6639
0.0213	8.0	632	0.4082	24.3239
0.0158	9.0	711	0.4131	24.2685
0.014	10.0	790	0.4141	24.2606