P

Pyannote Segmentation

it-just-worksによって開発
これは冪集合エンコーディングに基づくスピーカーセグメンテーションモデルで、10秒の音声クリップを処理し、複数のスピーカーとそのオーバーラップ状況を識別できます。
ダウンロード数 771
リリース時間 : 4/10/2025

モデル概要

このモデルは音声中のスピーカーセグメンテーションに使用され、最大3人のスピーカーとそのオーバーラップ状況を検出し、7つの可能なスピーカー組み合わせ状態を出力します。

モデル特徴

冪集合エンコーディング
独自の冪集合エンコーディング方式を使用してマルチスピーカーシーンを処理し、単一スピーカーとオーバーラップスピーカーを同時に識別可能
マルチタスクサポート
同一モデルでスピーカーセグメンテーション、音声アクティビティ検出、オーバーラップ音声検出が可能
効率的な処理
10秒音声クリップに最適化されており、リアルタイムまたはバッチ処理に適している

モデル能力

スピーカーセグメンテーション
音声アクティビティ検出
オーバーラップ音声検出
マルチスピーカー識別

使用事例

会議記録
会議発言記録
会議中の異なる発言者とその発言時間を自動識別
各発言者の音声セグメントを正確に分割
音声分析
オーバーラップ音声検出
会話中の複数人が同時に話している状況を検出
オーバーラップ音声セグメントを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase