wav2vec-tr-lite-AG开源模型 - 免费部署实现土耳其语自动语音识别

首页

Wav2vec Tr Lite AG

由 emre 开发

这是一个基于XLSR Wav2Vec2架构的土耳其语自动语音识别模型，在通用语音土耳其语数据集上训练

语音识别其他开源协议:Apache-2.0 #土耳其语语音识别 #低词错误率 #多GPU训练

下载量 26

发布时间 : 3/2/2022

模型简介

该模型专门用于土耳其语的自动语音识别任务，无需语言模型即可直接使用

模型特点

无需语言模型

该模型可以直接使用，无需额外的语言模型支持

高效训练

采用多GPU分布式训练，使用梯度累积技术提高训练效率

优化超参数

精心调整的学习率、批次大小和优化器设置确保模型性能

模型能力

土耳其语语音识别

音频转文本

16kHz采样率音频处理

使用案例

语音转写

土耳其语语音转文本

将土耳其语语音内容转换为文本

在通用语音土耳其语测试集上达到23.09%的WER

语音助手

土耳其语语音命令识别

用于土耳其语语音助手或智能家居设备的命令识别

🚀 wav2vec-tr-lite-AG

本模型是用于土耳其语语音识别的模型，可直接使用进行语音识别任务，无需额外语言模型。

🚀 快速开始

该模型可以直接使用（无需语言模型），如下所示：

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "tr", split="test[:2%]") 

processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

✨ 主要特性

直接使用：无需语言模型即可直接进行语音识别。
多GPU支持：支持多GPU分布式训练。
混合精度训练：采用Native AMP进行混合精度训练。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "tr", split="test[:2%]") 

processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

高级用法

文档未提及高级用法代码示例，暂不提供。

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

学习率：0.00005
训练批次大小：2
评估批次大小：8
随机种子：42
分布式类型：多GPU
设备数量：2
梯度累积步数：8
总训练批次大小：32
总评估批次大小：16
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：30.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率(WER)
0.4388	3.7	400	1.366	0.9701
0.3766	7.4	800	0.4914	0.5374
0.2295	11.11	1200	0.3934	0.4125
0.1121	14.81	1600	0.3264	0.2904
0.1473	18.51	2000	0.3103	0.2671
0.1013	22.22	2400	0.2589	0.2324
0.0704	25.92	2800	0.2826	0.2339
0.0537	29.63	3200	0.2704	0.2309