D

Diar Sortformer 4spk V1

nvidiaによって開発
Sortformerアーキテクチャに基づくエンドツーエンドのスピーカーダイアリゼーションモデルで、スピーカーの音声セグメント到着順に並べ替えることでダイアリゼーションの順序問題を解決し、最大4人のスピーカー識別をサポートします。
ダウンロード数 385.49k
リリース時間 : 12/9/2024

モデル概要

このモデルは革新的なSortformerアーキテクチャを採用し、スピーカーダイアリゼーションタスク専用に設計されており、複数人対話シナリオにおけるスピーカー識別と音声セグメントの順序付け問題を効果的に処理できます。

モデル特徴

革新的なSortformerアーキテクチャ
既存のエンドツーエンドダイアリゼーションモデルとは異なるトレーニング目標を採用し、スピーカーの音声セグメント到着順に並べ替えることでダイアリゼーションの順序問題を解決します。
高性能スピーカー識別
DIHARD3評価セットで14.76%のDER値を達成し、2人会話シナリオではDER値が5.85%まで低下します。
マルチスピーカーサポート
最大4人のスピーカーを同時に識別可能で、会議記録やカスタマーサポート対話などの多人数対話シナリオに適しています。
効率的な処理能力
RTX A6000グラフィックカードで約12分の長さの音声を処理可能で、ほとんどの実用的なアプリケーション要件を満たします。

モデル能力

スピーカー識別
音声セグメント順序付け
多人数対話分析
オフライン音声処理

使用事例

会議記録
会議発言者識別
会議録音中の異なる発言者の音声セグメントを自動識別し順序付け
DER値が6.86%まで低下(アメリカ英語家庭通話)
カスタマーサポート分析
カスタマーサポート対話分析
カスタマーサポートと顧客の対話セグメントを識別
2人会話DER値5.85%
音声書き起こし支援
マルチスピーカー音声書き起こし
音声書き起こしシステムにスピーカーセグメント情報を提供
3人会話DER値8.46%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase