wav2vec-tr-lite-AG開源模型 - 免費部署實現土耳其語自動語音識別

首頁

Wav2vec Tr Lite AG

由emre開發

這是一個基於XLSR Wav2Vec2架構的土耳其語自動語音識別模型，在通用語音土耳其語數據集上訓練

語音識別其他開源協議:Apache-2.0 #土耳其語語音識別 #低詞錯誤率 #多GPU訓練

下載量 26

發布時間 : 3/2/2022

模型概述

該模型專門用於土耳其語的自動語音識別任務，無需語言模型即可直接使用

模型特點

無需語言模型

該模型可以直接使用，無需額外的語言模型支持

高效訓練

採用多GPU分佈式訓練，使用梯度累積技術提高訓練效率

優化超參數

精心調整的學習率、批次大小和優化器設置確保模型性能

模型能力

土耳其語語音識別

音頻轉文本

16kHz採樣率音頻處理

使用案例

語音轉寫

土耳其語語音轉文本

將土耳其語語音內容轉換為文本

在通用語音土耳其語測試集上達到23.09%的WER

語音助手

土耳其語語音命令識別

用於土耳其語語音助手或智能家居設備的命令識別

🚀 wav2vec-tr-lite-AG

本模型是用於土耳其語語音識別的模型，可直接使用進行語音識別任務，無需額外語言模型。

🚀 快速開始

該模型可以直接使用（無需語言模型），如下所示：

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "tr", split="test[:2%]") 

processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

✨ 主要特性

直接使用：無需語言模型即可直接進行語音識別。
多GPU支持：支持多GPU分佈式訓練。
混合精度訓練：採用Native AMP進行混合精度訓練。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "tr", split="test[:2%]") 

processor = Wav2Vec2Processor.from_pretrained("emre/wav2vec-tr-lite-AG")
model = Wav2Vec2ForCTC.from_pretrained("emre/wav2vec-tr-lite-AG")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

高級用法

文檔未提及高級用法代碼示例，暫不提供。

📚 詳細文檔

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.00005
訓練批次大小：2
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
設備數量：2
梯度累積步數：8
總訓練批次大小：32
總評估批次大小：16
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：30.0
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率(WER)
0.4388	3.7	400	1.366	0.9701
0.3766	7.4	800	0.4914	0.5374
0.2295	11.11	1200	0.3934	0.4125
0.1121	14.81	1600	0.3264	0.2904
0.1473	18.51	2000	0.3103	0.2671
0.1013	22.22	2400	0.2589	0.2324
0.0704	25.92	2800	0.2826	0.2339
0.0537	29.63	3200	0.2704	0.2309