🚀 sammy786/wav2vec2-xlsr-georgian
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 数据集上的微调版本。它在评估集(训练数据集的 10% 与其他和开发数据集合并而成)上取得了以下结果:
🚀 快速开始
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集的 test
分割上进行评估:
python eval.py --model_id sammy786/wav2vec2-xlsr-georgian --dataset mozilla-foundation/common_voice_8_0 --config ka --split test
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2-xls-r-1b
进行微调,适用于自动语音识别任务。
- 在多个数据集上进行了评估,展示了一定的性能指标。
📚 详细文档
模型描述
对 "facebook/wav2vec2-xls-r-1b" 进行了微调。
预期用途与限制
更多信息待补充。
训练和评估数据
训练数据:Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。
训练过程
为创建训练数据集,将所有可能的数据集进行合并,并采用 90 - 10 的分割比例。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):0.000045637994662983496
- 训练批次大小(train_batch_size):8
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):13
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):32
- 优化器(optimizer):Adam,β=(0.9, 0.999),ε=1e - 08
- 学习率调度器类型(lr_scheduler_type):cosine_with_restarts
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练轮数(num_epochs):30
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
步骤 |
训练损失 |
验证损失 |
词错误率(Wer) |
200 |
4.152100 |
0.823672 |
0.967814 |
400 |
0.889500 |
0.196740 |
0.444792 |
600 |
0.493700 |
0.155659 |
0.366115 |
800 |
0.328000 |
0.138066 |
0.358069 |
1000 |
0.260600 |
0.119236 |
0.324989 |
1200 |
0.217200 |
0.114050 |
0.313366 |
1400 |
0.188800 |
0.112600 |
0.302190 |
1600 |
0.166900 |
0.111154 |
0.295485 |
1800 |
0.155500 |
0.109963 |
0.286544 |
2000 |
0.140400 |
0.107587 |
0.277604 |
2200 |
0.142600 |
0.105662 |
0.277157 |
2400 |
0.135400 |
0.105414 |
0.275369 |
框架版本
- Transformers:4.16.0.dev0
- Pytorch:1.10.0+cu102
- Datasets:1.17.1.dev0
- Tokenizers:0.10.3
🔧 技术细节
本模型是在预训练模型 facebook/wav2vec2-xls-r-1b
的基础上,使用 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 数据集进行微调。在训练过程中,对多个超参数进行了调整,以达到较好的性能。通过将不同的数据集合并并进行分割,创建了训练集和评估集。在训练过程中,使用了 Adam 优化器和 cosine_with_restarts 学习率调度器,并采用了混合精度训练来提高训练效率。
📄 许可证
本模型采用 Apache-2.0 许可证。
📦 模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件 |
评估数据集 |
mozilla-foundation/common_voice_8_0、speech-recognition-community-v2/dev_data、speech-recognition-community-v2/eval_data |
评估指标 |
词错误率(Wer)、字符错误率(CER) |
测试集 Wer |
在不同数据集上分别为 23.9、75.07、74.41 |
测试集 CER |
3.59 |