D

Diar Sortformer 4spk V1

由 nvidia 开发
基于Sortformer架构的端到端说话人日志模型,通过按说话人语音段到达时间顺序解决日志中的排列问题,支持最多4个说话人识别。
下载量 385.49k
发布时间 : 12/9/2024

模型简介

该模型采用创新的Sortformer架构,专门用于说话人日志任务,能够有效处理多人对话场景中的说话人识别和语音段排序问题。

模型特点

创新的Sortformer架构
采用与现有端到端日志模型不同的训练目标,通过按说话人语音段到达时间顺序解决日志中的排列问题。
高性能说话人识别
在DIHARD3评估集上达到14.76%的DER值,在2人通话场景中DER值低至5.85%。
多说话人支持
能够同时识别最多4个说话人,适用于会议记录、客服对话等多方交互场景。
高效处理能力
在RTX A6000显卡上可处理约12分钟长度的音频,满足大多数实际应用需求。

模型能力

说话人识别
语音段排序
多人对话分析
离线语音处理

使用案例

会议记录
会议发言者识别
自动识别会议录音中不同发言者的语音段并排序
DER值低至6.86%(美式英语家庭通话)
客服分析
客服对话分析
识别客服与客户的对话段落
2人会话DER值5.85%
语音转写辅助
多说话人语音转写
为语音转写系统提供说话人分段信息
3人会话DER值8.46%
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase