Mms Lid 126
基于Facebook大规模多语言语音项目微调的语言识别模型,支持126种语言的音频分类
音频分类
Transformers 支持多种语言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
该模型是基于facebook/wav2vec2-base在speech_commands数据集上微调的语音命令识别模型,准确率达97.59%。
音频分类
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基于OpenAI Whisper-medium微调的语音语种识别模型,在FLEURS数据集上达到88.05%准确率
音频分类
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
该模型通过对Wav2Vec2-Large-Robust进行微调训练,用于语音情感识别,输出唤醒度、支配度和效价三个维度的预测值。
音频分类
Transformers 英语

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于SpeechBrain框架和ECAPA-TDNN架构的语音语言识别模型,支持107种语言的识别和语音嵌入向量提取。
音频分类 支持多种语言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
音频分类
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基于openai/whisper-small微调的通用语言识别模型,在评估集上准确率达88.6%
音频分类
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微调的wav2vec2模型进行语音情感识别,在IEMOCAP数据集上训练
音频分类 英语
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器架构处理,在音频分类任务中表现优异。
音频分类
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基于Librispeech-clean-100数据集微调的性别识别模型,在测试集上F1分数达0.9993
音频分类
Transformers

W
alefiury
182.33k
42
Wav2vec English Speech Emotion Recognition
Apache-2.0
基于Wav2Vec 2.0微调的英语语音情感识别模型,能够识别7种不同情感
音频分类
Transformers

W
r-f
139.06k
19
Hubert Large Speech Emotion Recognition Russian Dusha Finetuned
Apache-2.0
该模型是基于HuBERT架构微调的俄语语音情感识别模型,在DUSHA数据集上训练,能够识别中性、愤怒、积极、悲伤等情感状态。
音频分类
Transformers 其他

H
xbgoose
111.13k
13
MERT V1 95M
MERT-v1-330M 是一个基于 MLM 范式训练的高级音乐理解模型,具有 330M 参数,支持 24K Hz 音频采样率和 75 Hz 特征率,适用于多种音乐信息检索任务。
音频分类
Transformers

M
m-a-p
83.72k
32
Audiobox Aesthetics
统一的语音、音乐和声音自动质量评估模型
音频分类
A
facebook
56.27k
24
Mms Lid 256
这是一个基于Wav2Vec2架构的语音语言识别模型,能够识别256种语言,属于Facebook大规模多语言语音(MMS)项目的一部分。
音频分类
Transformers 支持多种语言

M
facebook
48.38k
10
Wav2vec2 Large Robust 24 Ft Age Gender
该模型以原始音频信号作为输入,输出年龄预测值以及性别概率(儿童/女性/男性),同时输出最后一层transformer的池化状态。
音频分类
Transformers

W
audeering
44.13k
33
Wav2vec2 Lg Xlsr En Speech Emotion Recognition
Apache-2.0
基于Wav2Vec 2.0微调的语音情感识别模型,支持识别8种英语情感,在RAVDESS数据集上准确率达82.23%
音频分类
Transformers

W
ehcalabres
39.83k
221
Wav2vec2 Base Superb Er
Apache-2.0
这是一个基于Wav2Vec2架构的语音情感识别模型,移植自S3PRL项目,用于识别语音中的情感类别。
音频分类
Transformers 英语

W
superb
28.14k
11
SER Odyssey Baseline WavLM Multi Attributes
MIT
基于WavLM架构的多属性语音情绪识别基线模型,用于预测激活度、支配度和效价三个情绪维度
音频分类
Transformers 英语

S
3loi
23.09k
7
Wav2vec2 Large Robust 6 Ft Age Gender
该模型通过微调Wav2Vec2-Large-Robust,能够从原始音频中预测说话者的年龄和性别。
音频分类
Transformers

W
audeering
19.29k
2
MERT V1 330M
MERT-v1-330M是一个基于MLM范式训练的高级音乐理解模型,具有330M参数规模,支持24K Hz音频采样率,适用于多种音乐信息检索任务。
音频分类
Transformers

M
m-a-p
16.92k
65
Voice Gender Classifier
MIT
基于ECAPA-TDNN架构的预训练模型,用于从人类语音中分类性别
音频分类
Transformers

V
JaesungHuh
14.01k
16
Voice Safety Classifier
基于WavLM base plus架构的语音内容安全检测模型,用于识别语音聊天中的毒性内容
音频分类
Transformers

V
Roblox
11.55k
37
Hubert Base Superb Ks
Apache-2.0
该模型是基于Hubert架构的关键词识别模型,用于将语音片段分类为预定义的关键词集合。
音频分类
Transformers 英语

H
superb
11.29k
8
Ast Finetuned Speech Commands V2
Bsd-3-clause
基于Speech Commands v2数据集微调的音频频谱图变换器模型,用于音频分类任务,准确率达98.12%。
音频分类
Transformers

A
MIT
10.94k
15
Hubert Large Superb Er
Apache-2.0
基于Hubert-Large预训练模型的情感识别模型,用于预测语音中的情感类别
音频分类
Transformers 英语

H
superb
10.24k
21
Voxlingua107 Epaca Tdnn
Apache-2.0
基于VoxLingua107数据集训练的ECAPA-TDNN架构口语语言识别模型,支持107种语言识别
音频分类 其他
V
TalTechNLP
10.21k
28
AST VoxCelebSpoof Synthetic Voice Detection
MIT
基于MIT/ast-finetuned-audioset-10-10-0.4593微调的合成语音检测模型,在VoxCelebSpoof数据集上表现出色
音频分类
Transformers 英语

A
MattyB95
9,518
4
Hubert Base Superb Er
Apache-2.0
该模型是基于Hubert-Base架构的情感识别模型,在SUPERB情感识别任务上训练,用于语音情感分类
音频分类
Transformers 英语

H
superb
7,887
20
Speech Emotion Recognition With Openai Whisper Large V3
Apache-2.0
本项目利用Whisper模型实现语音情感识别,能够将音频分类为快乐、悲伤、惊讶等不同情感类别。
音频分类
Transformers

S
firdhokk
7,750
33
Wav2vec2 Xlsr Persian Speech Emotion Recognition
Apache-2.0
这是一个基于Wav2Vec 2.0架构的波斯语语音情感识别模型,能够识别六种基本情感状态。
音频分类
Transformers 其他

W
m3hrdadfi
5,114
8
Voice Safety Classifier V2
基于WavLM架构的多语言语音毒性检测模型,支持8种语言,可识别6类违规内容
音频分类
Transformers 支持多种语言

V
Roblox
5,073
4
Wav2vec Vm Finetune
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的语音邮件检测模型,专用于区分语音邮件问候语和真人应答。
音频分类
Transformers 英语

W
jakeBland
5,000
5
Wav2vecbert2 Filledpause
Apache-2.0
用于对音频中20毫秒的帧进行分类,判断是否存在填充停顿(如'eee'、'errm'等)的模型
音频分类
Safetensors 其他
W
classla
4,290
0
Mms Lid 4017
这是一个基于Wav2Vec2架构的语音语言识别模型,能够识别4017种语言,属于Facebook大规模多语言语音项目的一部分。
音频分类
Transformers 支持多种语言

M
facebook
3,721
8
Wav2vec2 Base Lang Id
Apache-2.0
基于facebook/wav2vec2-base在common_language数据集上微调的语音语言识别模型
音频分类
Transformers

W
anton-l
3,470
7
Music Genres Classification
Apache-2.0
该模型基于facebook/wav2vec2-base-960h训练,用于音乐流派分类任务,支持10种流派识别。
音频分类
Transformers

M
dima806
3,409
27
Ssast Small Patch Audioset 16 16
Bsd-3-clause
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
音频分类
Transformers

S
Simon-Kotchou
2,408
1
Accent Id Commonaccent Ecapa
MIT
该模型使用ECAPA-TDNN架构对英语语音进行16种口音分类,在CommonAccent数据集上训练,测试准确率达87%。
音频分类 英语
A
Jzuluaga
2,291
15
Deepfake Audio Detection V2
Apache-2.0
基于音频文件夹数据集微调的Deepfake音频检测模型,准确率达99.73%
音频分类
Transformers

D
MelodyMachine
2,289
14
Wav2vec2 Base Audioset
基于HuBERT架构的音频表征学习模型,在完整AudioSet数据集上预训练完成
音频分类
Transformers

W
ALM
2,191
0
Musical Instrument Detection
Apache-2.0
基于wav2vec 2.0架构的语音识别基础模型,在960小时英语语音数据上预训练
音频分类
Transformers

M
dima806
2,109
7
- 1
- 2
- 3
- 4
- 5
- 6
- 9