Segmentation 3.0
MIT
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠语音。
说话人处理
S
pyannote
12.6M
445
Speaker Diarization 3.1
MIT
一个用于说话人分割的音频处理模型,能够自动检测和分割音频中的不同说话人。
说话人处理
S
pyannote
11.7M
822
Segmentation
MIT
一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型
说话人处理
S
pyannote
9.2M
579
Speaker Diarization
MIT
基于pyannote.audio 2.1.1版本的说话人分割模型,用于自动检测音频中的说话人变化和重叠语音
说话人处理
S
pyannote
910.93k
1,038
Speaker Diarization 3.0
MIT
基于pyannote.audio 3.0.0训练的说话人分割管道,支持自动语音活动检测、说话人变化检测和重叠语音检测
说话人处理
S
pyannote
463.91k
186
Diar Sortformer 4spk V1
基于Sortformer架构的端到端说话人日志模型,通过按说话人语音段到达时间顺序解决日志中的排列问题,支持最多4个说话人识别。
说话人处理
D
nvidia
385.49k
36
Reverb Diarization V1
其他
基于pyannote3.0改进的说话人日志模型,在多个测试集上WDER相对降低16.5%
说话人处理
R
Revai
197.74k
11
Overlapped Speech Detection
MIT
一个用于检测音频中重叠语音的预训练模型,能够识别两个或更多说话人同时活跃的时间段。
说话人处理
O
pyannote
144.68k
35
Spkrec Xvect Voxceleb
Apache-2.0
这是一个使用SpeechBrain预训练的TDNN模型,用于提取说话人嵌入向量,主要应用于说话人验证和识别任务。
说话人处理 英语
S
speechbrain
27.68k
59
Speecht5 Vc
MIT
SpeechT5是基于CMU ARCTIC数据集微调的语音转换模型,支持将一种语音转换为另一种语音,保持内容不变但改变音色特征。
说话人处理
Transformers

S
microsoft
14.40k
104
Reverb Diarization V2
其他
Reverb说话人日志V2是一个基于pyannote-audio的说话人日志模型,相比基准pyannote3.0模型在多个测试集上表现更优。
说话人处理
R
Revai
4,073
45
Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0版本的说话人分割模型,用于自动检测和分割音频中的不同说话人
说话人处理
P
KIFF
1,830
4
Segmentation
MIT
这是一个端到端的说话人分割模型,用于语音活动检测、重叠语音检测和重分割任务。
说话人处理
TensorBoard

S
salmanshahid
1,790
0
Wav2vec2 Base Superb Sid
Apache-2.0
基于Wav2Vec2-base预训练模型,在VoxCeleb1数据集上微调的说话人识别模型,用于语音分类任务
说话人处理
Transformers 英语

W
superb
1,489
20
Segmentation 3.0
MIT
这是一个用于音频分割的模型,能够检测说话人变化、语音活动及重叠语音,适用于多说话人场景的音频分析。
说话人处理
S
fatymatariq
1,228
0
Speaker Diarization 3.1
MIT
Pyannote音频说话人分割管道,用于自动检测和分割音频中的不同说话人
说话人处理
S
fatymatariq
1,120
0
Wav2vec2 Base Superb Sv
Apache-2.0
这是一个基于Wav2Vec2架构的说话人验证模型,专为SUPERB基准测试中的说话人验证任务设计。
说话人处理
Transformers 英语

W
anton-l
901
3
Pyannote Segmentation 30
MIT
这是一个用于音频处理的说话人分割模型,能够检测语音活动、重叠语音和多个说话人。
说话人处理
P
collinbarnwell
873
0
Pyannote Speaker Diarization 31
MIT
Pyannote.audio的说话人日志管道,用于自动检测和分割音频中的不同说话人
说话人处理
P
collinbarnwell
835
3
VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection
MIT
基于深度学习的合成语音检测模型,通过微调预训练模型实现高效准确的合成语音检测
说话人处理
Transformers 英语

V
MattyB95
788
1
Pyannote Segmentation
MIT
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠情况。
说话人处理
P
it-just-works
771
0
Hubert Base Superb Sid
Apache-2.0
基于Hubert的说话人识别模型,针对SUPERB基准任务优化
说话人处理
Transformers 英语

H
superb
673
1
Pyannote Segmentation
MIT
这是一个端到端的说话人分割模型,支持语音活动检测、重叠语音检测和重分割任务。
说话人处理
P
philschmid
427
9
Speaker Diarization 3.1
MIT
一个用于说话人分割和嵌入的音频处理模型,支持自动语音活动检测和重叠语音检测。
说话人处理
S
tensorlake
393
2
Segmentation 3.0
MIT
这是一个基于pyannote.audio的说话人分割模型,能检测语音活动、说话人变更和重叠语音。
说话人处理
S
tensorlake
387
1
Hubert Large Superb Sid
Apache-2.0
基于Hubert-Large架构的说话人识别模型,在VoxCeleb1数据集上训练,用于语音分类任务
说话人处理
Transformers 英语

H
superb
349
2
Speaker Diarization Optimized
MIT
Pyannote.audio的说话人分割管道,用于自动检测音频中的说话人变化和分割语音片段
说话人处理
S
G-Root
349
0
Phil Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0版本的说话人分割模型,用于自动检测和分割音频中的不同说话人。
说话人处理
P
tawkit
215
7
Speaker Segmentation
MIT
基于pyannote.audio的说话人分割模型,用于检测音频中的说话人变化和语音活动
说话人处理
S
pyannote
182
33
Wespeaker Voxceleb Resnet293 LM
基于ResNet293架构的说话人嵌入模型,经过大间隔微调优化,支持说话人识别、相似度计算和语音分割等任务
说话人处理 英语
W
Wespeaker
108
3
Wav2vec2 ASV Deepfake Audio Detection
Apache-2.0
基于facebook/wav2vec2-base微调的深度伪造音频检测模型,用于识别合成或篡改的语音内容
说话人处理
Transformers

W
Bisher
106
1
Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0的说话人分割模型,用于自动检测音频中的说话人变化和语音活动
说话人处理
P
philschmid
51
18
Wespeaker Voxceleb Resnet34 LM
基于ResNet34架构的说话人嵌入模型,经过大间隔微调,在VoxCeleb2数据集上训练,支持说话人识别和相似度计算等任务。
说话人处理 英语
W
Wespeaker
33
4
Gender Cls Svm Ecapa Voxceleb
Apache-2.0
基于SpeechBrain的ECAPA-TDNN说话人嵌入模型与SVM分类器,可从音频输入中预测说话人性别。
说话人处理 其他
G
griko
29
0
Wav2vec2 Large Superb Sid
Apache-2.0
基于 Wav2Vec2-Large 架构的说话人识别模型,在 VoxCeleb1 数据集上训练,用于将语音按说话人身份分类
说话人处理
Transformers 英语

W
superb
27
1
Speaker Diarization 2.5
MIT
基于pyannote/speaker-diarization-3.0修改的说话人分割模型,使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入,在某些测试中表现更优
说话人处理
S
Willy030125
26
0
Speaker Segmentation Fine Tuned Callhome Jpn
MIT
这是一个基于pyannote/segmentation-3.0基础模型微调的说话人日志模型,专门针对日语电话对话场景优化。
说话人处理
Transformers

S
kamilakesbi
18
0
Speaker Diarization V1
MIT
这是一个基于幂集多类交叉熵损失的说话人分割模型,能够处理10秒单声道音频,输出说话人分割结果。
说话人处理
S
objects76
13
0