音頻特徵提取

# 音頻特徵提取

Voc2vec Hubert Ls Pt

voc2vec是專為非語言人類數據設計的基礎模型，基於HuBERT框架構建，在125小時非語言音頻數據上預訓練。

Transformers 英語

voc2vec是一個專門為非語言人類數據設計的基礎模型，基於wav2vec 2.0框架構建。

Transformers 英語

Distilhubert Finetuned Gtzan

基於DistilHuBERT架構在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達86%

Distilhubert Finetuned Gtzan

該模型是基於ntu-spml/distilhubert在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達到85%。

Wav2vec2 Base BirdSet XCL

wav2vec 2.0 是一個自監督學習框架，用於語音表示學習，能夠從未標記的音頻數據中學習語音特徵。

DBD-research-group

Hubert Large Gender Auto

基於HuBERT大模型的性別分類器，準確率達98.61%

Wav2vec2 Base Gender Classification

基於facebook/wav2vec2-base微調的語音性別分類模型，在評估集上準確率達98.92%

Wav2vec2 Audio Emotion Classification

基於facebook/wav2vec2-base微調的音頻情感分類模型，在評估集上準確率達73.98%

Distilhubert Finetuned Gtzan

該模型是基於NTU-SPML的DistilHuBERT在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

Wav2vec2 Large Robust 24 Ft Age Gender

該模型以原始音頻信號作為輸入，輸出年齡預測值以及性別概率（兒童/女性/男性），同時輸出最後一層transformer的池化狀態。

Wav2vec2 Large Robust 6 Ft Age Gender

該模型通過微調Wav2Vec2-Large-Robust，能夠從原始音頻中預測說話者的年齡和性別。

Audiocourseu4 MusicClassification

基於distilhubert在GTZAN數據集上微調的音樂分類模型，準確率達88%

Distilhubert Finetuned Gtzan

基於distilhubert在GTZAN音樂分類數據集上微調的模型，用於音樂流派分類任務

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT架構，在GTZAN音樂分類數據集上微調的音頻分類模型，主要用於音樂流派分類任務。

Distilhubert Finetuned Distilhubert

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

Distilhubert Finetuned Gtzan

基於 DistilHuBERT 在 GTZAN 音樂分類數據集上微調的輕量級音頻特徵提取模型

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

My Awesome Model

基於DistilHuBERT架構的音頻分類模型，在GTZAN音樂流派分類數據集上微調，準確率達94.75%

Distilhubert Finetuned Gtzan

基於DistilHuBERT架構在GTZAN音樂流派分類數據集上微調的音頻分類模型

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達到76.25%

Distilhubert Finetuned Gtzan

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

Distilhubert Finetuned Gtzan V3 Finetuned Gtzan

該模型是基於DistilHuBERT架構在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

這是一個基於AST(Audio Spectrogram Transformer)架構的音頻分類模型，在GTZAN音樂流派分類數據集上微調，準確率達到92%。

Distilhubert Finetuned Gtzan

基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達85%

Distilhubert Finetuned Ravdess

基於DistilHuBERT架構在RAVDESS語音情感數據集上微調的語音情感識別模型，準確率達92.36%

Audio Classification Model

基於facebook/wav2vec2-base-960h微調的音頻分類模型，具體用途和訓練數據未明確說明。

Distilhubert Finetuned Gtzan V2

該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本，主要用於音樂流派分類任務。

Speech Accent Classification

基於Wav2Vec2架構的語音識別基礎模型，在960小時的英語語音數據上訓練，適用於語音分類任務。

Transformers 英語

基於音頻數據集對MIT/ast-finetuned-audioset-10-10-0.4593進行微調的音頻分類模型

MERT-v1-330M 是一個基於 MLM 範式訓練的高級音樂理解模型，具有 330M 參數，支持 24K Hz 音頻採樣率和 75 Hz 特徵率，適用於多種音樂信息檢索任務。

Wav2vec2 Base Finetuned Coscan Age Group

基於wav2vec2-base在coscan-speech數據集上微調的年齡組分類模型，驗證集準確率達99.8%

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53

該模型是基於facebook/wav2vec2-large-xlsr-53在AI Light Dance數據集上微調的自動語音識別模型。

Ai Light Dance Chord Ft Wav2vec2 Large Xlsr 53

該模型是基於facebook/wav2vec2-large-xlsr-53在GARY109/AI_Light_Dance - ONSET-CHORD2數據集上微調的自動語音識別模型。

Wav2vec2 Base Sound2

基於facebook/wav2vec2-base微調的語音處理模型，在評估集上準確率達53.57%

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase