2025年最佳 38 款說話人處理工具

Segmentation 3.0
MIT
這是一個基於冪集編碼的說話人分割模型,能夠處理10秒音頻片段並識別多個說話人及其重疊語音。
說話人處理
S
pyannote
12.6M
445
Speaker Diarization 3.1
MIT
一個用於說話人分割的音頻處理模型,能夠自動檢測和分割音頻中的不同說話人。
說話人處理
S
pyannote
11.7M
822
Segmentation
MIT
一個用於語音活動檢測、重疊語音檢測和說話人分割的音頻處理模型
說話人處理
S
pyannote
9.2M
579
Speaker Diarization
MIT
基於pyannote.audio 2.1.1版本的說話人分割模型,用於自動檢測音頻中的說話人變化和重疊語音
說話人處理
S
pyannote
910.93k
1,038
Speaker Diarization 3.0
MIT
基於pyannote.audio 3.0.0訓練的說話人分割管道,支持自動語音活動檢測、說話人變化檢測和重疊語音檢測
說話人處理
S
pyannote
463.91k
186
Diar Sortformer 4spk V1
基於Sortformer架構的端到端說話人日誌模型,通過按說話人語音段到達時間順序解決日誌中的排列問題,支持最多4個說話人識別。
說話人處理
D
nvidia
385.49k
36
Reverb Diarization V1
其他
基於pyannote3.0改進的說話人日誌模型,在多個測試集上WDER相對降低16.5%
說話人處理
R
Revai
197.74k
11
Overlapped Speech Detection
MIT
一個用於檢測音頻中重疊語音的預訓練模型,能夠識別兩個或更多說話人同時活躍的時間段。
說話人處理
O
pyannote
144.68k
35
Spkrec Xvect Voxceleb
Apache-2.0
這是一個使用SpeechBrain預訓練的TDNN模型,用於提取說話人嵌入向量,主要應用於說話人驗證和識別任務。
說話人處理 英語
S
speechbrain
27.68k
59
Speecht5 Vc
MIT
SpeechT5是基於CMU ARCTIC數據集微調的語音轉換模型,支持將一種語音轉換為另一種語音,保持內容不變但改變音色特徵。
說話人處理 Transformers
S
microsoft
14.40k
104
Reverb Diarization V2
其他
Reverb說話人日誌V2是一個基於pyannote-audio的說話人日誌模型,相比基準pyannote3.0模型在多個測試集上表現更優。
說話人處理
R
Revai
4,073
45
Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人
說話人處理
P
KIFF
1,830
4
Segmentation
MIT
這是一個端到端的說話人分割模型,用於語音活動檢測、重疊語音檢測和重分割任務。
說話人處理 TensorBoard
S
salmanshahid
1,790
0
Wav2vec2 Base Superb Sid
Apache-2.0
基於Wav2Vec2-base預訓練模型,在VoxCeleb1數據集上微調的說話人識別模型,用於語音分類任務
說話人處理 Transformers 英語
W
superb
1,489
20
Segmentation 3.0
MIT
這是一個用於音頻分割的模型,能夠檢測說話人變化、語音活動及重疊語音,適用於多說話人場景的音頻分析。
說話人處理
S
fatymatariq
1,228
0
Speaker Diarization 3.1
MIT
Pyannote音頻說話人分割管道,用於自動檢測和分割音頻中的不同說話人
說話人處理
S
fatymatariq
1,120
0
Wav2vec2 Base Superb Sv
Apache-2.0
這是一個基於Wav2Vec2架構的說話人驗證模型,專為SUPERB基準測試中的說話人驗證任務設計。
說話人處理 Transformers 英語
W
anton-l
901
3
Pyannote Segmentation 30
MIT
這是一個用於音頻處理的說話人分割模型,能夠檢測語音活動、重疊語音和多個說話人。
說話人處理
P
collinbarnwell
873
0
Pyannote Speaker Diarization 31
MIT
Pyannote.audio的說話人日誌管道,用於自動檢測和分割音頻中的不同說話人
說話人處理
P
collinbarnwell
835
3
VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection
MIT
基於深度學習的合成語音檢測模型,通過微調預訓練模型實現高效準確的合成語音檢測
說話人處理 Transformers 英語
V
MattyB95
788
1
Pyannote Segmentation
MIT
這是一個基於冪集編碼的說話人分割模型,能夠處理10秒音頻片段並識別多個說話人及其重疊情況。
說話人處理
P
it-just-works
771
0
Hubert Base Superb Sid
Apache-2.0
基於Hubert的說話人識別模型,針對SUPERB基準任務優化
說話人處理 Transformers 英語
H
superb
673
1
Pyannote Segmentation
MIT
這是一個端到端的說話人分割模型,支持語音活動檢測、重疊語音檢測和重分割任務。
說話人處理
P
philschmid
427
9
Speaker Diarization 3.1
MIT
一個用於說話人分割和嵌入的音頻處理模型,支持自動語音活動檢測和重疊語音檢測。
說話人處理
S
tensorlake
393
2
Segmentation 3.0
MIT
這是一個基於pyannote.audio的說話人分割模型,能檢測語音活動、說話人變更和重疊語音。
說話人處理
S
tensorlake
387
1
Hubert Large Superb Sid
Apache-2.0
基於Hubert-Large架構的說話人識別模型,在VoxCeleb1數據集上訓練,用於語音分類任務
說話人處理 Transformers 英語
H
superb
349
2
Speaker Diarization Optimized
MIT
Pyannote.audio的說話人分割管道,用於自動檢測音頻中的說話人變化和分割語音片段
說話人處理
S
G-Root
349
0
Phil Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人。
說話人處理
P
tawkit
215
7
Speaker Segmentation
MIT
基於pyannote.audio的說話人分割模型,用於檢測音頻中的說話人變化和語音活動
說話人處理
S
pyannote
182
33
Wespeaker Voxceleb Resnet293 LM
基於ResNet293架構的說話人嵌入模型,經過大間隔微調優化,支持說話人識別、相似度計算和語音分割等任務
說話人處理 英語
W
Wespeaker
108
3
Wav2vec2 ASV Deepfake Audio Detection
Apache-2.0
基於facebook/wav2vec2-base微調的深度偽造音頻檢測模型,用於識別合成或篡改的語音內容
說話人處理 Transformers
W
Bisher
106
1
Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0的說話人分割模型,用於自動檢測音頻中的說話人變化和語音活動
說話人處理
P
philschmid
51
18
Wespeaker Voxceleb Resnet34 LM
基於ResNet34架構的說話人嵌入模型,經過大間隔微調,在VoxCeleb2數據集上訓練,支持說話人識別和相似度計算等任務。
說話人處理 英語
W
Wespeaker
33
4
Gender Cls Svm Ecapa Voxceleb
Apache-2.0
基於SpeechBrain的ECAPA-TDNN說話人嵌入模型與SVM分類器,可從音頻輸入中預測說話人性別。
說話人處理 其他
G
griko
29
0
Wav2vec2 Large Superb Sid
Apache-2.0
基於 Wav2Vec2-Large 架構的說話人識別模型,在 VoxCeleb1 數據集上訓練,用於將語音按說話人身份分類
說話人處理 Transformers 英語
W
superb
27
1
Speaker Diarization 2.5
MIT
基於pyannote/speaker-diarization-3.0修改的說話人分割模型,使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入,在某些測試中表現更優
說話人處理
S
Willy030125
26
0
Speaker Segmentation Fine Tuned Callhome Jpn
MIT
這是一個基於pyannote/segmentation-3.0基礎模型微調的說話人日誌模型,專門針對日語電話對話場景優化。
說話人處理 Transformers
S
kamilakesbi
18
0
Speaker Diarization V1
MIT
這是一個基於冪集多類交叉熵損失的說話人分割模型,能夠處理10秒單聲道音頻,輸出說話人分割結果。
說話人處理
S
objects76
13
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase