Bird Sounds Classification
基于facebook/wav2vec2-base-960h的鸟类声音分类模型,用于通过声音识别不同鸟类物种。
下载量 54
发布时间 : 10/26/2023
模型简介
该模型利用音频信号处理技术,能够准确识别多种鸟类的叫声,适用于生态研究和生物多样性监测。
模型特点
高准确率
在多种鸟类识别任务中达到88.22%的准确率
广泛物种覆盖
支持识别超过40种不同鸟类的声音
基于wav2vec2
利用先进的wav2vec2架构进行音频特征提取
模型能力
鸟类声音识别
多物种分类
音频特征提取
使用案例
生态研究
鸟类种群监测
通过自动识别鸟类叫声监测特定区域的鸟类种群
可替代人工监测,提高效率
生物多样性保护
濒危物种监测
识别特定濒危鸟类的存在
帮助保护工作者及时掌握濒危物种分布
🚀 鸟类声音检测项目
本项目专注于通过声音检测鸟类物种,利用相关模型和技术实现对多种鸟类的精准分类,为鸟类研究和监测提供有力支持。
📄 许可证
本项目采用 Apache-2.0 许可证。
📋 模型信息
属性 | 详情 |
---|---|
模型类型 | 基于 facebook/wav2vec2-base-960h 的模型 |
评估指标 | 准确率、F1 分数 |
📚 详细文档
更多详细信息请参考:https://www.kaggle.com/code/dima806/bird-species-by-sound-detection
🖼️ 项目图示
💻 分类报告
Classification report:
precision recall f1-score support
Andean Guan 0.9310 0.8182 0.8710 33
Andean Tinamou 0.5000 0.7083 0.5862 24
Australian Brushturkey 0.7500 0.1765 0.2857 17
Band-tailed Guan 0.7436 0.7838 0.7632 37
Bartletts Tinamou 0.9579 0.9891 0.9733 92
Bearded Guan 0.8889 0.8649 0.8767 37
Black-capped Tinamou 0.4154 0.9000 0.5684 30
Blue-throated Piping Guan 0.0000 0.0000 0.0000 22
Brazilian Tinamou 0.8026 0.8841 0.8414 69
Brown Tinamou 0.9391 0.9076 0.9231 119
Brushland Tinamou 0.9048 0.8636 0.8837 22
Cauca Guan 0.9925 0.9778 0.9851 135
Chaco Chachalaca 0.9383 1.0000 0.9682 76
Chestnut-winged Chachalaca 0.8108 0.8108 0.8108 37
Cinereous Tinamou 0.9737 0.9867 0.9801 75
Colombian Chachalaca 1.0000 0.8649 0.9275 37
Crested Guan 0.9574 0.9375 0.9474 48
Dusky Megapode 0.7143 0.9722 0.8235 36
Dusky-legged Guan 0.8857 0.9394 0.9118 33
Dwarf Tinamou 0.8750 0.5600 0.6829 25
Great Tinamou 0.9697 0.9846 0.9771 65
Grey Tinamou 0.9492 0.9655 0.9573 58
Grey-headed Chachalaca 0.8667 0.9123 0.8889 57
Highland Tinamou 1.0000 0.9273 0.9623 55
Little Chachalaca 0.7632 0.9355 0.8406 31
Little Tinamou 0.7419 0.8519 0.7931 27
Orange-footed Scrubfowl 0.9640 0.9640 0.9640 111
Pale-browed Tinamou 0.6667 0.0909 0.1600 22
Plain Chachalaca 0.9390 0.9390 0.9390 82
Red-legged Tinamou 0.7297 0.9310 0.8182 29
Red-winged Tinamou 0.8605 0.9487 0.9024 39
Rufous-bellied Chachalaca 0.9911 0.9407 0.9652 118
Rufous-headed Chachalaca 0.8333 0.7143 0.7692 28
Rufous-vented Chachalaca 0.8478 0.8667 0.8571 45
Rusty-margined Guan 0.8889 0.9412 0.9143 34
Slaty-breasted Tinamou 0.8649 0.9143 0.8889 35
Small-billed Tinamou 0.7742 0.8889 0.8276 27
Solitary Tinamou 0.6786 0.6786 0.6786 28
Speckled Chachalaca 0.9333 0.9655 0.9492 58
Spixs Guan 0.9600 0.7500 0.8421 32
Spotted Nothura 0.7234 0.9714 0.8293 35
Tataupa Tinamou 0.6571 0.7931 0.7188 29
Tawny-breasted Tinamou 0.9138 0.9138 0.9138 58
Thicket Tinamou 0.9663 0.9773 0.9718 88
Undulated Tinamou 0.9315 0.8095 0.8662 84
Variegated Tinamou 1.0000 0.2105 0.3478 19
West Mexican Chachalaca 0.8615 0.9655 0.9106 58
White-bellied Nothura 0.8000 0.7273 0.7619 22
White-throated Tinamou 0.0000 0.0000 0.0000 14
Yellow-legged Tinamou 0.9623 0.9808 0.9714 52
accuracy 0.8822 2444
macro avg 0.8204 0.8081 0.7959 2444
weighted avg 0.8806 0.8822 0.8727 2444
Mms Lid 126
基于Facebook大规模多语言语音项目微调的语言识别模型,支持126种语言的音频分类
音频分类
Transformers 支持多种语言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
该模型是基于facebook/wav2vec2-base在speech_commands数据集上微调的语音命令识别模型,准确率达97.59%。
音频分类
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基于OpenAI Whisper-medium微调的语音语种识别模型,在FLEURS数据集上达到88.05%准确率
音频分类
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
该模型通过对Wav2Vec2-Large-Robust进行微调训练,用于语音情感识别,输出唤醒度、支配度和效价三个维度的预测值。
音频分类
Transformers 英语

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于SpeechBrain框架和ECAPA-TDNN架构的语音语言识别模型,支持107种语言的识别和语音嵌入向量提取。
音频分类
PyTorch 支持多种语言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
音频分类
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基于openai/whisper-small微调的通用语言识别模型,在评估集上准确率达88.6%
音频分类
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微调的wav2vec2模型进行语音情感识别,在IEMOCAP数据集上训练
音频分类
PyTorch 英语
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器架构处理,在音频分类任务中表现优异。
音频分类
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基于Librispeech-clean-100数据集微调的性别识别模型,在测试集上F1分数达0.9993
音频分类
Transformers

W
alefiury
182.33k
42
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98