digit - mask - data2vec - audio - base - 960h - ft開源音頻數字識別模型，數字掩碼數據集表現出色

首頁

Digit Mask Data2vec Audio Base 960h Ft

由mazkooleg開發

基於data2vec-audio-base-960h微調的音頻數字識別模型，在數字掩碼增強數據集上表現出色

音頻分類

Transformers

開源協議:Apache-2.0 #音頻數字識別 #高精度分類 #數據增強訓練

下載量 14

發布時間 : 5/7/2023

模型概述

該模型是針對音頻數字識別任務優化的版本，特別適用於處理數字掩碼場景下的音頻數據

模型特點

高準確率數字識別

在評估集上達到99.91%的準確率和F1值

針對數字掩碼優化

專門針對數字掩碼場景進行訓練和優化

基於data2vec微調

基於強大的data2vec音頻基礎模型進行微調

模型能力

音頻數字識別

處理掩碼音頻

高精度分類

使用案例

語音處理

電話數字識別

識別電話語音中的數字輸入

99.91%準確率

語音驗證碼識別

解析語音驗證碼中的數字序列

訓練損失	輪數	步數	準確率	F1值	驗證損失
0.0167	1.0	14264	0.9975	0.9975	0.0108
0.0016	2.0	28528	0.9991	0.9991	0.0067
0.0063	3.0	42792	0.9987	0.9987	0.0078

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Digit Mask Data2vec Audio Base 960h Ft

模型概述

模型特點

模型能力

使用案例

🚀 data2vec-audio-base-960h-digit-mask-ft

🚀 快速開始

📚 詳細文檔

模型描述

預期用途與限制

訓練和評估數據

訓練過程

訓練超參數

訓練結果

框架版本

📄 許可證