2025年最高の 38 個の話者の処理ツール

Segmentation 3.0
MIT
これはパワーセットエンコーディングに基づく話者分割モデルで、10秒の音声クリップを処理し、複数の話者とその重複音声を識別できます。
話者の処理
S
pyannote
12.6M
445
Speaker Diarization 3.1
MIT
音声内の異なる話者を自動的に検出・分割する音声処理モデルです。
話者の処理
S
pyannote
11.7M
822
Segmentation
MIT
音声活動検出、重複音声検出、話者分割のための音声処理モデル
話者の処理
S
pyannote
9.2M
579
Speaker Diarization
MIT
pyannote.audio 2.1.1バージョンに基づく話者分割モデルで、音声中の話者の変化と重複音声を自動検出するために使用されます。
話者の処理
S
pyannote
910.93k
1,038
Speaker Diarization 3.0
MIT
pyannote.audio 3.0.0でトレーニングされたスピーカーダイアリゼーションパイプライン。自動音声活動検出、スピーカー変化検出、オーバーラップ音声検出をサポート
話者の処理
S
pyannote
463.91k
186
Diar Sortformer 4spk V1
Sortformerアーキテクチャに基づくエンドツーエンドのスピーカーダイアリゼーションモデルで、スピーカーの音声セグメント到着順に並べ替えることでダイアリゼーションの順序問題を解決し、最大4人のスピーカー識別をサポートします。
話者の処理
D
nvidia
385.49k
36
Reverb Diarization V1
その他
pyannote3.0を改良したスピーカーダイアリゼーションモデルで、複数のテストセットでWDERを16.5%相対的に低減
話者の処理
R
Revai
197.74k
11
Overlapped Speech Detection
MIT
音声中の重複音声を検出するための事前学習済みモデルで、2人以上の話者が同時に発話している時間帯を識別できます。
話者の処理
O
pyannote
144.68k
35
Spkrec Xvect Voxceleb
Apache-2.0
これはSpeechBrainで事前学習されたTDNNモデルで、話者の埋め込みベクトルを抽出するために使用され、主に話者認証と認識タスクに適用されます。
話者の処理 英語
S
speechbrain
27.68k
59
Speecht5 Vc
MIT
SpeechT5はCMU ARCTICデータセットでファインチューニングされた音声変換モデルで、音声内容を保持しながら音色特徴を変更することができます。
話者の処理 Transformers
S
microsoft
14.40k
104
Reverb Diarization V2
その他
Reverb話者分離V2はpyannote-audioベースの話者分離モデルで、ベンチマークpyannote3.0モデルと比較して複数のテストセットで優れた性能を発揮します。
話者の処理
R
Revai
4,073
45
Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0バージョンに基づく話者分割モデルで、音声内の異なる話者を自動検出・分割する
話者の処理
P
KIFF
1,830
4
Segmentation
MIT
これはエンドツーエンドの話者セグメンテーションモデルで、音声活動検出、オーバーラップ音声検出、リセグメンテーションタスクに使用されます。
話者の処理 TensorBoard
S
salmanshahid
1,790
0
Wav2vec2 Base Superb Sid
Apache-2.0
Wav2Vec2-base事前学習モデルを基に、VoxCeleb1データセットでファインチューニングされた話者認識モデルで、音声分類タスクに使用されます
話者の処理 Transformers 英語
W
superb
1,489
20
Segmentation 3.0
MIT
これは音声セグメンテーションのためのモデルで、スピーカーの変化、音声活動、およびオーバーラップ音声を検出でき、マルチスピーカーシナリオの音声分析に適しています。
話者の処理
S
fatymatariq
1,228
0
Speaker Diarization 3.1
MIT
Pyannoteオーディオスピーカー分割パイプライン、オーディオ内の異なるスピーカーを自動検出・分割するためのもの
話者の処理
S
fatymatariq
1,120
0
Wav2vec2 Base Superb Sv
Apache-2.0
これはWav2Vec2アーキテクチャに基づく話者検証モデルで、SUPERBベンチマークテストの話者検証タスク用に設計されています。
話者の処理 Transformers 英語
W
anton-l
901
3
Pyannote Segmentation 30
MIT
これは音声処理用の話者分割モデルで、音声活動、重複音声、複数話者を検出できます。
話者の処理
P
collinbarnwell
873
0
Pyannote Speaker Diarization 31
MIT
Pyannote.audioの話者ログパイプラインで、音声内の異なる話者を自動検出および分割するためのものです。
話者の処理
P
collinbarnwell
835
3
VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection
MIT
ディープラーニングに基づく合成音声検出モデルで、事前学習モデルの微調整により、効率的かつ正確な合成音声検出を実現します。
話者の処理 Transformers 英語
V
MattyB95
788
1
Pyannote Segmentation
MIT
これは冪集合エンコーディングに基づくスピーカーセグメンテーションモデルで、10秒の音声クリップを処理し、複数のスピーカーとそのオーバーラップ状況を識別できます。
話者の処理
P
it-just-works
771
0
Hubert Base Superb Sid
Apache-2.0
Hubertに基づく話者識別モデルで、SUPERBベンチマークタスクに対して最適化されています。
話者の処理 Transformers 英語
H
superb
673
1
Pyannote Segmentation
MIT
これはエンドツーエンドの話者分割モデルで、音声活動検出、オーバーラップ音声検出、再分割タスクをサポートします。
話者の処理
P
philschmid
427
9
Speaker Diarization 3.1
MIT
話者分割と埋め込みのための音声処理モデルで、自動音声活動検出とオーバーラップ音声検出をサポートします。
話者の処理
S
tensorlake
393
2
Segmentation 3.0
MIT
これはpyannote.audioをベースにしたスピーカーセグメンテーションモデルで、音声活動、スピーカー変更、オーバーラップ音声を検出できます。
話者の処理
S
tensorlake
387
1
Hubert Large Superb Sid
Apache-2.0
Hubert-Largeアーキテクチャに基づく話者認識モデルで、VoxCeleb1データセットで訓練され、音声分類タスクに使用されます
話者の処理 Transformers 英語
H
superb
349
2
Speaker Diarization Optimized
MIT
Pyannote.audioの話者分割パイプラインで、音声中の話者の変化を自動検出し音声セグメントを分割します
話者の処理
S
G-Root
349
0
Phil Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0バージョンに基づくスピーカーダイアリゼーションモデルで、音声中の異なる話者を自動検出・分割します。
話者の処理
P
tawkit
215
7
Speaker Segmentation
MIT
pyannote.audioに基づく話者分割モデルで、音声中の話者の変化と音声活動を検出するために使用されます。
話者の処理
S
pyannote
182
33
Wespeaker Voxceleb Resnet293 LM
ResNet293アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニング最適化を経ており、話者認識、類似度計算、音声分割などのタスクをサポート
話者の処理 英語
W
Wespeaker
108
3
Wav2vec2 ASV Deepfake Audio Detection
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたディープフェイク音声検出モデルで、合成または改ざんされた音声コンテンツを識別
話者の処理 Transformers
W
Bisher
106
1
Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0ベースの話者分割モデルで、音声中の話者変化や音声活動を自動検出
話者の処理
P
philschmid
51
18
Wespeaker Voxceleb Resnet34 LM
ResNet34アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニングを経てVoxCeleb2データセットでトレーニングされ、話者認識や類似度計算などのタスクをサポートします。
話者の処理 英語
W
Wespeaker
33
4
Gender Cls Svm Ecapa Voxceleb
Apache-2.0
SpeechBrainのECAPA-TDNN話者埋め込みモデルとSVM分類器を基に、音声入力から話者の性別を予測します。
話者の処理 その他
G
griko
29
0
Wav2vec2 Large Superb Sid
Apache-2.0
Wav2Vec2-Large アーキテクチャに基づく話者認識モデルで、VoxCeleb1 データセットでトレーニングされ、音声を話者IDごとに分類するために使用されます
話者の処理 Transformers 英語
W
superb
27
1
Speaker Diarization 2.5
MIT
pyannote/speaker-diarization-3.0をベースに改良した話者分割モデル。speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のテストでより優れた性能を発揮
話者の処理
S
Willy030125
26
0
Speaker Segmentation Fine Tuned Callhome Jpn
MIT
これはpyannote/segmentation-3.0ベースモデルをファインチューニングした話者ロギングモデルで、日本語の電話会話シナリオに特化して最適化されています。
話者の処理 Transformers
S
kamilakesbi
18
0
Speaker Diarization V1
MIT
これはパワーセットマルチクラス交差エントロピー損失に基づくスピーカーセグメンテーションモデルで、10秒のモノラル音声を処理し、スピーカーセグメンテーション結果を出力できます。
話者の処理
S
objects76
13
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase