音頻分類

# 音頻分類

Ast Finetuned Audioset 10 10 0.4593 ONNX

這是AST(Audio Spectrogram Transformer)模型的ONNX版本，專為音頻分類任務設計，在AudioSet數據集上進行了微調。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

該模型是基於Audio Spectrogram Transformer (AST)架構的音頻分類模型，在Audioset數據集上預訓練後，又在GTZAN音樂流派分類數據集上進行了微調。

Frugal Ai Space

基於wav2vec2架構的音頻分類模型，適用於氣候相關的聲音分類任務

Transformers 英語

Felguk Suno Or People

該模型用於將音頻片段分類為'Suno'音樂或'People'音樂。

Transformers 支持多種語言

Whisper Tiny Tel Tam Try1

基於openai/whisper-tiny微調的語音分類模型，在語音命令數據集上表現優異

Ph Audio Classification V1

基於distilhubert微調的音頻分類模型，在評估集上達到100%準確率

Seamless M4t V2 Large Speech Encoder

從SeamlessM4Tv2-Large中提取的語音編碼器模塊，擅長跨語言和多語言的序列級音頻分類任務

Transformers 支持多種語言

Music Classifier

基於Wav2Vec2的音頻分類模型，用於識別音樂流派

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

該模型是基於AST架構在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達89%

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

該模型是基於 Audio Spectrogram Transformer (AST) 在 GTZAN 音樂分類數據集上微調的版本，用於音頻分類任務，準確率達到 88%。

Vietnamese Regional Accent Classification Model

這是一個用於分類越南語方言的音頻分類模型，在評估集上F1分數達到0.8217。

thangtrungnguyen

Baby Cry Classification Finetuned Babycry V4

基於wav2vec2-large-xlsr-53-english微調的嬰兒哭聲分類模型，準確率達81.5%

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

基於Wav2Vec2 Large XLSR-53模型微調的語音情感識別系統，能夠識別7種常見情感

AST ASVspoof5 Synthetic Voice Detection

基於MIT/ast-finetuned-audioset-10-10-0.4593微調的合成語音檢測模型，用於識別音頻是否為合成語音。

Genrevim Music Detection DistilHuBERT

該模型是基於DistilHuBERT微調的音頻分類模型，專門用於區分音樂與非音樂音頻。

基於wav2vec預訓練模型在superb數據集上微調的5分類音頻分類模型

Wav2vec Base Crema Sentiment Analysis

基於facebook/wav2vec2-base微調的語音情感分析模型，在評估集上達到70.87%的準確率

Wav2vec2 Base Finetuned Ks

基於wav2vec2-base模型在音頻文件夾數據集上微調的音頻分類模型，驗證集準確率達99.82%

Violence Detect 44

基於facebook/wav2vec2-base-960h微調的音頻分類模型，用於檢測暴力聲音

Detect Language

基於Whisper Medium模型微調的語言識別模型，專門用於FLEURS數據集上的語言分類任務

apparaomulpuriril

My Awesome Mind Model

基於facebook/wav2vec2-base微調的音頻分類模型，在評估集上達到58.92%的準確率

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

基於視覺變換器(ViT)的音頻處理模型，通過自監督掩碼自編碼器(MAE)方法在AudioSet-2M上預訓練並在AudioSet-20k上微調

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

基於wav2vec2架構的音頻分類模型，在GTZAN數據集上微調，用於音樂和語音分類任務

Cat Dog Sounds Classification

基於wav2vec 2.0架構的語音識別基礎模型，在960小時的英語語音數據上預訓練

Musical Instrument Detection

基於wav2vec 2.0架構的語音識別基礎模型，在960小時英語語音數據上預訓練

Classical Composer Classification New

基於facebook/wav2vec2-base-960h的音頻分類模型，可識別音頻片段所屬的古典音樂作曲家

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT架構在GTZAN音樂流派分類數據集上微調的音頻分類模型，準確率達89%。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

這是一個基於AST(Audio Spectrogram Transformer)架構的音頻分類模型，在GTZAN音樂流派分類數據集上進行了微調。

MERT是一種基於自監督學習的聲學音樂理解模型，通過教師模型提供偽標籤進行預訓練。

Distilhubert Finetuned Gtzan

基於distilhubert在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達89%

Wav2vec2 Base Finetuned Gtzan

該模型是基於facebook/wav2vec2-base在GTZAN數據集上微調的音頻分類模型，主要用於音樂流派分類任務。

Wav2vec2 Base Music Speech Both Classification

基於facebook/wav2vec2-base微調的音頻分類模型，用於區分音樂和語音

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

基於AST架構的音頻分類模型，在GTZAN數據集上微調，用於音樂流派分類任務

Whisper Tiny Finetuned Gtzan

基於openai/whisper-tiny在GTZAN數據集上微調的語音分類模型，準確率達91%

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型，主要用於音樂流派分類任務。

Ast Finetuned Audioset 10 10 0.4593

基於AudioSet數據集微調的音頻譜圖變換器(AST)模型，用於音頻分類任務

基於facebook/wav2vec2-base微調的音頻分類模型，用於識別音樂流派

Voip Classification

基於facebook/wav2vec2-base微調的語音分類模型，用於音頻文件夾數據集的分類任務

該模型用於估計固定聲源的到達方向（DOA），基於SOFA數據集訓練，通過AST模型微調實現。

Transformers 英語

Neunit Ks Kangyuan0601

該模型是基於facebook/wav2vec2-base在superb數據集上微調的音頻分類模型，在評估集上取得了99.87%的準確率。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase