wav2vec2-xls-r-300m-cv6-turkish開源模型 - 精準實現土耳其語自動語音識別

首頁

Wav2vec2 Xls R 300m Cv6 Turkish

由mpoyraz開發

基於facebook/wav2vec2-xls-r-300m微調的土耳其語自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #土耳其語語音識別 #低CER轉錄 #多源數據訓練

下載量 38

發布時間 : 3/2/2022

模型概述

該模型是針對土耳其語優化的自動語音識別(ASR)系統，基於Common Voice 6.1和MediaSpeech數據集微調，支持土耳其語語音轉文本任務。

模型特點

高性能土耳其語識別

在Common Voice 6.1測試集上達到8.83%的WER和2.37%的CER

多數據集訓練

結合Common Voice和MediaSpeech數據集進行訓練，提高模型魯棒性

語言模型增強

使用土耳其語維基百科訓練的N-gram語言模型提升識別準確率

模型能力

土耳其語語音識別

長音頻處理(支持分塊處理)

使用案例

語音轉寫

土耳其語語音轉錄

將土耳其語語音內容轉換為文本

在標準測試集上達到8.83%的詞錯誤率

語音助手

土耳其語語音指令識別

用於土耳其語語音助手的前端語音識別

🚀 wav2vec2-xls-r-300m-cv6-turkish

該自動語音識別（ASR）模型解決了在土耳其語語音識別場景下的準確性問題，基於預訓練模型進行微調，能有效提升對土耳其語語音的識別能力，為相關語音應用提供了有力支持。

🚀 快速開始

本模型是 facebook/wav2vec2-xls-r-300m 在土耳其語上的微調版本。

✨ 主要特性

基於預訓練模型微調，適配土耳其語語音識別。
支持多數據集訓練，提升模型泛化能力。
訓練過程使用了自定義的預處理和加載步驟。

📦 安裝指南

在運行評估之前，請安裝 unicode_tr 包，用於土耳其語文本處理。

💻 使用示例

基礎用法

以下是在 common_voice 測試集上進行評估的命令：

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset common_voice --config tr --split test

高級用法

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 詳細文檔

訓練和評估數據

以下數據集用於微調：

Common Voice 6.1 TR 除測試集外的所有 validated 分割數據用於訓練。
MediaSpeech

訓練過程

為了支持上述兩個數據集，執行了自定義的預處理和加載步驟，並使用 wav2vec2-turkish 倉庫實現此目的。

訓練超參數

以下超參數用於微調：

學習率：2e-4
訓練輪數：10
熱身步數：500
凍結特徵提取器
時間掩碼概率：0.1
特徵掩碼概率：0.1
特徵投影丟棄率：0.05
注意力丟棄率：0.05
最終丟棄率：0.1
激活丟棄率：0.05
每個設備的訓練批次大小：8
每個設備的評估批次大小：8
梯度累積步數：8

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.1
Datasets：1.18.3
Tokenizers：0.10.3

語言模型

使用 KenLM 在土耳其語維基百科文章上訓練了 N-gram 語言模型，並使用 ngram-lm-wiki 倉庫生成 arpa 語言模型並將其轉換為二進制格式。

評估結果

數據集	詞錯誤率（WER）	字符錯誤率（CER）
Common Voice 6.1 TR 測試集	8.83	2.37
語音識別社區開發數據	32.81	11.22

📄 許可證

本項目採用 Apache-2.0 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫