🚀 wav2vec-tr-lite-AG
本模型是用於土耳其語語音識別的模型,可直接使用進行語音識別任務,無需額外語言模型。
🚀 快速開始
該模型可以直接使用(無需語言模型),如下所示:
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "tr", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
✨ 主要特性
- 直接使用:無需語言模型即可直接進行語音識別。
- 多GPU支持:支持多GPU分佈式訓練。
- 混合精度訓練:採用Native AMP進行混合精度訓練。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "tr", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
高級用法
文檔未提及高級用法代碼示例,暫不提供。
📚 詳細文檔
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.00005
- 訓練批次大小:2
- 評估批次大小:8
- 隨機種子:42
- 分佈式類型:多GPU
- 設備數量:2
- 梯度累積步數:8
- 總訓練批次大小:32
- 總評估批次大小:16
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:500
- 訓練輪數:30.0
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(WER) |
0.4388 |
3.7 |
400 |
1.366 |
0.9701 |
0.3766 |
7.4 |
800 |
0.4914 |
0.5374 |
0.2295 |
11.11 |
1200 |
0.3934 |
0.4125 |
0.1121 |
14.81 |
1600 |
0.3264 |
0.2904 |
0.1473 |
18.51 |
2000 |
0.3103 |
0.2671 |
0.1013 |
22.22 |
2400 |
0.2589 |
0.2324 |
0.0704 |
25.92 |
2800 |
0.2826 |
0.2339 |
0.0537 |
29.63 |
3200 |
0.2704 |
0.2309 |
框架版本
- Transformers 4.12.0.dev0
- Pytorch 1.8.1
- Datasets 1.14.1.dev0
- Tokenizers 0.10.3
🔧 技術細節
文檔未提供具體技術細節,暫不展示。
📄 許可證
本項目採用Apache-2.0許可證。
📋 模型信息
屬性 |
詳情 |
模型類型 |
語音識別模型 |
訓練數據 |
Common Voice土耳其語數據集 |
評估指標 |
字錯率(WER) |