Smart Turn V2
S

Smart Turn V2

由pipecat-ai開發
Smart Turn v2 是一個開源的語義語音活動檢測(VAD)模型,通過分析原始波形來判斷說話者是否已結束髮言。
下載量 670
發布時間 : 7/11/2025

模型概述

該模型支持多語言,模型體積小且速度快,適用於語音助手、即時轉錄等場景。

模型特點

多語言支持
支持 14 種語言,滿足不同語言環境下的語音活動檢測需求。
模型體積小
相較於 v1 版本,模型體積縮小 6 倍,僅約 360 MB,更易於部署和使用。
速度快
分析音頻的速度提升 3 倍,在 NVIDIA L40S 上分析 8 秒音頻僅需約 12 毫秒。

模型能力

語義語音活動檢測
多語言語音分析
即時語音處理

使用案例

語音助手/聊天機器人
避免打斷用戶
等待用戶真正結束說話後再回復,避免打斷用戶。
提升用戶體驗
即時轉錄 + 文本轉語音(TTS)
觸發 TTS
僅在用戶發言結束時觸發 TTS,避免“雙向對話”。
提高轉錄準確性
呼叫中心輔助與分析
說話人分離和情感分析
為說話人分離和情感分析管道提供準確的分割。
提升分析效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase