🚀 西奈語音阿拉伯語語音識別模型
西奈語音阿拉伯語語音識別模型是基於特定數據集微調的模型,可將阿拉伯語語音準確轉換為文本,在語音識別任務中表現出色,為阿拉伯語語音處理提供了有效的解決方案。
🚀 快速開始
本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - AR 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失:0.2141
- 字錯誤率(Wer):0.1808
在評估集上的結果如下:
- 評估損失 = 0.2141
- 評估樣本數 = 10388
- 評估字錯誤率(eval_wer) = 0.181
- 字符錯誤率(eval_cer) = 0.049
✨ 主要特性
- 多數據集驗證:在多個數據集上進行了評估,包括
mozilla - foundation/common_voice_8_0
和 speech - recognition - community - v2/dev_data
等,確保了模型的泛化能力。
- 指標表現良好:在字錯誤率(Wer)和字符錯誤率(Cer)等指標上有較好的表現。
📦 安裝指南
文檔未提供安裝步驟,暫不展示安裝指南相關內容。
💻 使用示例
基礎用法
from transformers import (Wav2Vec2Processor, Wav2Vec2ForCTC)
import torchaudio
import torch
def speech_file_to_array_fn(voice_path, resampling_to=16000):
speech_array, sampling_rate = torchaudio.load(voice_path)
resampler = torchaudio.transforms.Resample(sampling_rate, resampling_to)
return resampler(speech_array)[0].numpy(), sampling_rate
cp = "bakrianoo/sinai-voice-ar-stt"
processor = Wav2Vec2Processor.from_pretrained(cp)
model = Wav2Vec2ForCTC.from_pretrained(cp)
sound_path = './my_voice.mp3'
sample, sr = speech_file_to_array_fn(sound_path)
inputs = processor([sample], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values,).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
評估命令
- 在
mozilla - foundation/common_voice_8_0
的 test
分割上進行評估
python eval.py --model_id bakrianoo/sinai-voice-ar-stt --dataset mozilla-foundation/common_voice_8_0 --config ar --split test
📚 詳細文檔
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0002
- 訓練批次大小:32
- 評估批次大小:10
- 隨機種子:42
- 分佈式類型:多 GPU
- 設備數量:8
- 總訓練批次大小:256
- 總評估批次大小:80
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:1000
- 訓練輪數:10
- 混合精度訓練:原生 AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯誤率(Wer) |
1.354 |
0.64 |
1000 |
0.4109 |
0.4493 |
0.5886 |
1.28 |
2000 |
0.2798 |
0.3099 |
0.4977 |
1.92 |
3000 |
0.2387 |
0.2673 |
0.4253 |
2.56 |
4000 |
0.2266 |
0.2523 |
0.3942 |
3.2 |
5000 |
0.2171 |
0.2437 |
0.3619 |
3.84 |
6000 |
0.2076 |
0.2253 |
0.3245 |
4.48 |
7000 |
0.2088 |
0.2186 |
0.308 |
5.12 |
8000 |
0.2086 |
0.2206 |
0.2881 |
5.76 |
9000 |
0.2089 |
0.2105 |
0.2557 |
6.4 |
10000 |
0.2015 |
0.2004 |
0.248 |
7.04 |
11000 |
0.2044 |
0.1953 |
0.2251 |
7.68 |
12000 |
0.2058 |
0.1932 |
0.2052 |
8.32 |
13000 |
0.2117 |
0.1878 |
0.1976 |
8.96 |
14000 |
0.2104 |
0.1825 |
0.1845 |
9.6 |
15000 |
0.2156 |
0.1821 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.2+cu113
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,暫不展示技術細節相關內容。
📄 許可證
本模型使用的許可證為 Apache - 2.0。
📋 模型信息
屬性 |
詳情 |
模型類型 |
西奈語音阿拉伯語語音識別模型 |
訓練數據 |
mozilla - foundation/common_voice_8_0 |
評估指標 |
字錯誤率(Wer)、字符錯誤率(Cer) |
示例音頻 |
示例 1、示例 2、示例 3 |