D

Diar Sortformer 4spk V1

由nvidia開發
基於Sortformer架構的端到端說話人日誌模型,通過按說話人語音段到達時間順序解決日誌中的排列問題,支持最多4個說話人識別。
下載量 385.49k
發布時間 : 12/9/2024

模型概述

該模型採用創新的Sortformer架構,專門用於說話人日誌任務,能夠有效處理多人對話場景中的說話人識別和語音段排序問題。

模型特點

創新的Sortformer架構
採用與現有端到端日誌模型不同的訓練目標,通過按說話人語音段到達時間順序解決日誌中的排列問題。
高性能說話人識別
在DIHARD3評估集上達到14.76%的DER值,在2人通話場景中DER值低至5.85%。
多說話人支持
能夠同時識別最多4個說話人,適用於會議記錄、客服對話等多方交互場景。
高效處理能力
在RTX A6000顯卡上可處理約12分鐘長度的音頻,滿足大多數實際應用需求。

模型能力

說話人識別
語音段排序
多人對話分析
離線語音處理

使用案例

會議記錄
會議發言者識別
自動識別會議錄音中不同發言者的語音段並排序
DER值低至6.86%(美式英語家庭通話)
客服分析
客服對話分析
識別客服與客戶的對話段落
2人會話DER值5.85%
語音轉寫輔助
多說話人語音轉寫
為語音轉寫系統提供說話人分段信息
3人會話DER值8.46%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase