🚀 wav2vec-tr-lite-AG
本模型是用于土耳其语语音识别的模型,可直接使用进行语音识别任务,无需额外语言模型。
🚀 快速开始
该模型可以直接使用(无需语言模型),如下所示:
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "tr", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
✨ 主要特性
- 直接使用:无需语言模型即可直接进行语音识别。
- 多GPU支持:支持多GPU分布式训练。
- 混合精度训练:采用Native AMP进行混合精度训练。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "tr", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
高级用法
文档未提及高级用法代码示例,暂不提供。
📚 详细文档
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.00005
- 训练批次大小:2
- 评估批次大小:8
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:2
- 梯度累积步数:8
- 总训练批次大小:32
- 总评估批次大小:16
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:500
- 训练轮数:30.0
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错率(WER) |
0.4388 |
3.7 |
400 |
1.366 |
0.9701 |
0.3766 |
7.4 |
800 |
0.4914 |
0.5374 |
0.2295 |
11.11 |
1200 |
0.3934 |
0.4125 |
0.1121 |
14.81 |
1600 |
0.3264 |
0.2904 |
0.1473 |
18.51 |
2000 |
0.3103 |
0.2671 |
0.1013 |
22.22 |
2400 |
0.2589 |
0.2324 |
0.0704 |
25.92 |
2800 |
0.2826 |
0.2339 |
0.0537 |
29.63 |
3200 |
0.2704 |
0.2309 |
框架版本
- Transformers 4.12.0.dev0
- Pytorch 1.8.1
- Datasets 1.14.1.dev0
- Tokenizers 0.10.3
🔧 技术细节
文档未提供具体技术细节,暂不展示。
📄 许可证
本项目采用Apache-2.0许可证。
📋 模型信息
属性 |
详情 |
模型类型 |
语音识别模型 |
训练数据 |
Common Voice土耳其语数据集 |
评估指标 |
字错率(WER) |