wav2vec2-xlsr-lithuanian开源语音识别模型 - 精准识别立陶宛语语音内容

首页

Wav2vec2 Xlsr Lithuanian

由 sammy786 开发

该模型是基于facebook/wav2vec2-xls-r-1b在立陶宛语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #立陶宛语语音识别 #低词错误率 #多场景对话

下载量 18

发布时间 : 3/2/2022

模型简介

用于立陶宛语语音识别的微调模型，在Common Voice 8数据集上训练

模型特点

高效语音识别

针对立陶宛语优化的语音识别能力

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-1b模型微调

优秀性能指标

在测试集上取得14.67%的词错误率(WER)

模型能力

立陶宛语语音识别

鲁棒语音事件检测

对话语音处理

使用案例

语音转文字

立陶宛语语音转录

将立陶宛语语音转换为文字

14.67% WER

语音助手

立陶宛语语音指令识别

用于立陶宛语语音助手系统

🚀 sammy786/wav2vec2-xlsr-lithuanian

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - lt数据集上对facebook/wav2vec2 - xls - r - 1b进行微调后的版本。它在评估集（训练数据集的10%与其他和开发数据集合并而成）上取得了以下结果：

损失：13.1811
字错率（Wer）：24.2570

✨ 主要特性

基于预训练模型facebook/wav2vec2 - xls - r - 1b进行微调，适用于立陶宛语的自动语音识别任务。
训练过程中使用了多种优化策略，如特定的学习率调度和混合精度训练，以提高模型性能。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

对“facebook/wav2vec2 - xls - r - 1b”进行了微调。

预期用途与限制

需要更多信息。

训练和评估数据

训练数据为Common voice芬兰语的train.tsv、dev.tsv和other.tsv文件。

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用了90 - 10的分割方式。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：40
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	字错率（Wer）
200	5.718700	2.897032	1.000000
400	1.340000	0.309548	0.507284
600	0.799100	0.220205	0.402098
800	0.494400	0.185093	0.352855
1000	0.370800	0.165869	0.334207
1200	0.312500	0.159801	0.324009
1400	0.276100	0.148066	0.321678
1600	0.250100	0.153748	0.311626
1800	0.226400	0.147437	0.302885
2000	0.206900	0.141176	0.296037
2200	0.189900	0.142161	0.288170
2400	0.192100	0.138029	0.286568
2600	0.175600	0.139496	0.283654
2800	0.156900	0.138609	0.283217
3000	0.149400	0.140468	0.281906
3200	0.144600	0.132472	0.278263
3400	0.144100	0.141028	0.277535
3600	0.133000	0.134287	0.275495
3800	0.126600	0.149136	0.277681
4000	0.123500	0.132180	0.266463
4200	0.113000	0.137942	0.268211
4400	0.111700	0.140038	0.272873
4600	0.108600	0.136756	0.264132
4800	0.103600	0.137541	0.263403
5000	0.098000	0.140435	0.264860
5200	0.095800	0.136950	0.262383
5400	0.094000	0.128214	0.263986
5600	0.085300	0.125024	0.259761
5800	0.078900	0.128575	0.260198
6000	0.083300	0.135496	0.258887
6200	0.078800	0.131706	0.259178
6400	0.073800	0.128451	0.255390
6600	0.072600	0.131245	0.252768
6800	0.073300	0.131525	0.249417
7000	0.069000	0.128627	0.255536
7200	0.064400	0.127767	0.250583
7400	0.065400	0.129557	0.247815
7600	0.061200	0.129734	0.250146
7800	0.059100	0.135124	0.249709
8000	0.057000	0.132850	0.249126
8200	0.056100	0.128827	0.248252
8400	0.056400	0.130229	0.246795
8600	0.052800	0.128939	0.245775
8800	0.051100	0.131892	0.248543
9000	0.052900	0.132062	0.244464
9200	0.048200	0.130988	0.244172
9400	0.047700	0.131811	0.242570
9600	0.050000	0.133832	0.245484
9800	0.047500	0.134340	0.243881
10000	0.048400	0.133388	0.243590
10200	0.047800	0.132729	0.244464
10400	0.049000	0.131695	0.245047
10600	0.044400	0.132154	0.245484
10800	0.050100	0.131575	0.245192
11000	0.047700	0.131211	0.245192
11200	0.046000	0.131293	0.245047

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

评估命令

在mozilla - foundation/common_voice_8_0数据集的test分割上进行评估：

python eval.py --model_id sammy786/wav2vec2-xlsr-lithuanian --dataset mozilla-foundation/common_voice_8_0 --config lt --split test

🔧 技术细节

文档未提供足够的技术实现细节（少于50字的具体技术说明），故跳过此章节。

📄 许可证

本模型采用Apache - 2.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库