Bird Sounds Classification
基於facebook/wav2vec2-base-960h的鳥類聲音分類模型,用於通過聲音識別不同鳥類物種。
下載量 54
發布時間 : 10/26/2023
模型概述
該模型利用音頻信號處理技術,能夠準確識別多種鳥類的叫聲,適用於生態研究和生物多樣性監測。
模型特點
高準確率
在多種鳥類識別任務中達到88.22%的準確率
廣泛物種覆蓋
支持識別超過40種不同鳥類的聲音
基於wav2vec2
利用先進的wav2vec2架構進行音頻特徵提取
模型能力
鳥類聲音識別
多物種分類
音頻特徵提取
使用案例
生態研究
鳥類種群監測
通過自動識別鳥類叫聲監測特定區域的鳥類種群
可替代人工監測,提高效率
生物多樣性保護
瀕危物種監測
識別特定瀕危鳥類的存在
幫助保護工作者及時掌握瀕危物種分佈
🚀 鳥類聲音檢測項目
本項目專注於通過聲音檢測鳥類物種,利用相關模型和技術實現對多種鳥類的精準分類,為鳥類研究和監測提供有力支持。
📄 許可證
本項目採用 Apache-2.0 許可證。
📋 模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於 facebook/wav2vec2-base-960h 的模型 |
評估指標 | 準確率、F1 分數 |
📚 詳細文檔
更多詳細信息請參考:https://www.kaggle.com/code/dima806/bird-species-by-sound-detection
🖼️ 項目圖示
💻 分類報告
Classification report:
precision recall f1-score support
Andean Guan 0.9310 0.8182 0.8710 33
Andean Tinamou 0.5000 0.7083 0.5862 24
Australian Brushturkey 0.7500 0.1765 0.2857 17
Band-tailed Guan 0.7436 0.7838 0.7632 37
Bartletts Tinamou 0.9579 0.9891 0.9733 92
Bearded Guan 0.8889 0.8649 0.8767 37
Black-capped Tinamou 0.4154 0.9000 0.5684 30
Blue-throated Piping Guan 0.0000 0.0000 0.0000 22
Brazilian Tinamou 0.8026 0.8841 0.8414 69
Brown Tinamou 0.9391 0.9076 0.9231 119
Brushland Tinamou 0.9048 0.8636 0.8837 22
Cauca Guan 0.9925 0.9778 0.9851 135
Chaco Chachalaca 0.9383 1.0000 0.9682 76
Chestnut-winged Chachalaca 0.8108 0.8108 0.8108 37
Cinereous Tinamou 0.9737 0.9867 0.9801 75
Colombian Chachalaca 1.0000 0.8649 0.9275 37
Crested Guan 0.9574 0.9375 0.9474 48
Dusky Megapode 0.7143 0.9722 0.8235 36
Dusky-legged Guan 0.8857 0.9394 0.9118 33
Dwarf Tinamou 0.8750 0.5600 0.6829 25
Great Tinamou 0.9697 0.9846 0.9771 65
Grey Tinamou 0.9492 0.9655 0.9573 58
Grey-headed Chachalaca 0.8667 0.9123 0.8889 57
Highland Tinamou 1.0000 0.9273 0.9623 55
Little Chachalaca 0.7632 0.9355 0.8406 31
Little Tinamou 0.7419 0.8519 0.7931 27
Orange-footed Scrubfowl 0.9640 0.9640 0.9640 111
Pale-browed Tinamou 0.6667 0.0909 0.1600 22
Plain Chachalaca 0.9390 0.9390 0.9390 82
Red-legged Tinamou 0.7297 0.9310 0.8182 29
Red-winged Tinamou 0.8605 0.9487 0.9024 39
Rufous-bellied Chachalaca 0.9911 0.9407 0.9652 118
Rufous-headed Chachalaca 0.8333 0.7143 0.7692 28
Rufous-vented Chachalaca 0.8478 0.8667 0.8571 45
Rusty-margined Guan 0.8889 0.9412 0.9143 34
Slaty-breasted Tinamou 0.8649 0.9143 0.8889 35
Small-billed Tinamou 0.7742 0.8889 0.8276 27
Solitary Tinamou 0.6786 0.6786 0.6786 28
Speckled Chachalaca 0.9333 0.9655 0.9492 58
Spixs Guan 0.9600 0.7500 0.8421 32
Spotted Nothura 0.7234 0.9714 0.8293 35
Tataupa Tinamou 0.6571 0.7931 0.7188 29
Tawny-breasted Tinamou 0.9138 0.9138 0.9138 58
Thicket Tinamou 0.9663 0.9773 0.9718 88
Undulated Tinamou 0.9315 0.8095 0.8662 84
Variegated Tinamou 1.0000 0.2105 0.3478 19
West Mexican Chachalaca 0.8615 0.9655 0.9106 58
White-bellied Nothura 0.8000 0.7273 0.7619 22
White-throated Tinamou 0.0000 0.0000 0.0000 14
Yellow-legged Tinamou 0.9623 0.9808 0.9714 52
accuracy 0.8822 2444
macro avg 0.8204 0.8081 0.7959 2444
weighted avg 0.8806 0.8822 0.8727 2444
Mms Lid 126
基於Facebook大規模多語言語音項目微調的語言識別模型,支持126種語言的音頻分類
音頻分類
Transformers 支持多種語言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
該模型是基於facebook/wav2vec2-base在speech_commands數據集上微調的語音命令識別模型,準確率達97.59%。
音頻分類
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基於OpenAI Whisper-medium微調的語音語種識別模型,在FLEURS數據集上達到88.05%準確率
音頻分類
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
音頻分類
Transformers 英語

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於SpeechBrain框架和ECAPA-TDNN架構的語音語言識別模型,支持107種語言的識別和語音嵌入向量提取。
音頻分類
PyTorch 支持多種語言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
音頻分類
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基於openai/whisper-small微調的通用語言識別模型,在評估集上準確率達88.6%
音頻分類
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微調的wav2vec2模型進行語音情感識別,在IEMOCAP數據集上訓練
音頻分類
PyTorch 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基於AudioSet數據集微調的音頻頻譜圖變換器,將音頻轉換為頻譜圖後使用視覺變換器架構處理,在音頻分類任務中表現優異。
音頻分類
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基於Librispeech-clean-100數據集微調的性別識別模型,在測試集上F1分數達0.9993
音頻分類
Transformers

W
alefiury
182.33k
42
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98