開源vit_spectrogram模型 - 精準識別音頻頻譜圖中男女性別特徵

首頁

Vit Spectrogram

由prashanth0205開發

基於Vision Transformer架構的頻譜圖分類模型，用於識別音頻頻譜圖中的性別特徵（男/女分類）

音頻分類

Transformers

開源協議:Apache-2.0 #頻譜圖分類 #性別識別 #ViT微調

下載量 24

發布時間 : 7/6/2022

模型概述

該模型是在google/vit-base-patch16-224-in21k預訓練模型基礎上，針對梅爾頻譜圖數據進行微調的視覺Transformer模型，主要用於音頻性別分類任務。

模型特點

基於預訓練ViT模型微調

使用google/vit-base-patch16-224-in21k預訓練權重初始化，在頻譜圖數據上微調

高效的頻譜圖處理

將音頻轉換為梅爾頻譜圖後，使用視覺Transformer進行處理和分類

混合精度訓練

採用mixed_float16精度進行訓練，平衡計算效率和模型精度

模型能力

音頻頻譜圖分析

性別分類（男/女）

梅爾頻譜圖特徵提取

使用案例

音頻分析

語音性別識別

通過分析語音頻譜圖判斷說話者性別

驗證集準確率93.66%

屬性	詳情
模型類型	vit_spectrogram
許可證	Apache-2.0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Vit Spectrogram

模型概述

模型特點

模型能力

使用案例

🚀 vit_spectrogram

🚀 快速開始

📚 詳細文檔

模型描述

預期用途與限制

訓練和評估數據

訓練過程

訓練超參數

框架版本

📄 許可證