ast-finetuned-speech-commands-v2開源音頻模型 - 高精度完成音頻分類任務

Home

Ast Finetuned Speech Commands V2

Developed by MIT

基於Speech Commands v2數據集微調的音頻頻譜圖變換器模型，用於音頻分類任務，準確率達98.12%。

音頻分類

Transformers

Open Source License:Bsd-3-clause #高精度音頻分類 #語音指令識別 #頻譜圖變換器

Downloads 10.94k

Release Time : 11/14/2022

Model Overview

該模型將音頻轉換為頻譜圖後應用視覺變換器架構，專門用於語音命令分類任務。

Model Features

高準確率

在Speech Commands v2數據集上達到98.12%的分類準確率

頻譜圖轉換

將音頻信號轉換為頻譜圖後應用視覺變換器技術

端到端學習

直接從原始音頻數據學習特徵，無需手動特徵工程

Model Capabilities

語音命令識別

音頻分類

短語音處理

Use Cases

智能家居控制

語音控制設備

識別用戶語音命令控制智能家居設備

高準確率識別常見控制指令

可訪問性應用

語音輔助工具

為行動不便用戶提供語音控制界面

屬性	詳情
模型類型	音頻頻譜圖變換器（在語音命令v2上微調）
訓練數據	語音命令v2
任務類型	音頻分類
評估指標	準確率：98.12%

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ast Finetuned Speech Commands V2

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 音頻頻譜圖變換器（在語音命令v2上微調）

✨ 主要特性

📚 詳細文檔

模型描述

使用說明

模型指標

免責聲明

📄 許可證