Smart Turn v2開源語音檢測模型 - 分析波形判斷說話者發言是否結束

首頁

Smart Turn V2

由pipecat-ai開發

Smart Turn v2 是一個開源的語義語音活動檢測（VAD）模型，通過分析原始波形來判斷說話者是否已結束髮言。

語音識別

Safetensors

其他#多語言語音端點檢測 #即時語音交互 #低延遲VAD

下載量 670

發布時間 : 7/11/2025

模型概述

該模型支持多語言，模型體積小且速度快，適用於語音助手、即時轉錄等場景。

模型特點

多語言支持

支持 14 種語言，滿足不同語言環境下的語音活動檢測需求。

模型體積小

相較於 v1 版本，模型體積縮小 6 倍，僅約 360 MB，更易於部署和使用。

速度快

分析音頻的速度提升 3 倍，在 NVIDIA L40S 上分析 8 秒音頻僅需約 12 毫秒。

模型能力

語義語音活動檢測

多語言語音分析

即時語音處理

使用案例

語音助手/聊天機器人

避免打斷用戶

等待用戶真正結束說話後再回復，避免打斷用戶。

提升用戶體驗

即時轉錄 + 文本轉語音（TTS）

觸發 TTS

僅在用戶發言結束時觸發 TTS，避免“雙向對話”。

提高轉錄準確性

呼叫中心輔助與分析

說話人分離和情感分析

為說話人分離和情感分析管道提供準確的分割。

提升分析效率

🚀 Smart Turn v2

Smart Turn v2 是一個開源的語義語音活動檢測（VAD）模型，它通過分析原始波形而非轉錄文本，來判斷 說話者是否已結束髮言。與 v1 相比，它具有以下優勢：

多語言支持：支持 14 種語言（英語、法語、德語、西班牙語、葡萄牙語、中文、日語、印地語、意大利語、韓語、荷蘭語、波蘭語、俄語、土耳其語）。
模型體積縮小 6 倍：約 360 MB，而 v1 為 2.3 GB。
速度提升 3 倍：在 NVIDIA L40S 上分析 8 秒音頻約需 12 毫秒。

🚀 快速開始

from transformers import pipeline
import soundfile as sf

pipe = pipeline(
    "audio-classification",
    model="pipecat-ai/smart-turn-v2",
    feature_extractor="facebook/wav2vec2-base"
)

speech, sr = sf.read("user_utterance.wav")
if sr != 16_000:
    raise ValueError("Resample to 16 kHz")

result = pipe(speech, top_k=None)[0]
print(f"Completed turn? {result['label']}  Prob: {result['score']:.3f}")
# label == 'complete' → user has finished speaking

✨ 主要特性

多語言支持：支持 14 種語言，能夠滿足不同語言環境下的語音活動檢測需求。
模型體積小：相較於 v1 版本，模型體積大幅縮小，僅約 360 MB，更易於部署和使用。
速度快：分析音頻的速度提升 3 倍，在 NVIDIA L40S 上分析 8 秒音頻僅需約 12 毫秒。

📚 詳細文檔

預期用途與任務

使用場景	模型優勢
語音助手/聊天機器人	等待用戶真正結束說話後再回復，避免打斷用戶。
即時轉錄 + 文本轉語音（TTS）	僅在用戶發言結束時觸發 TTS，避免“雙向對話”。
呼叫中心輔助與分析	為說話人分離和情感分析管道提供準確的分割。
任何需要語義 VAD 的項目	檢測經典基於能量的 VAD 忽略的不完整想法、填充詞（如“um …”、“えーと …”）和語調線索。

該模型輸出一個單一概率值；值 ≥ 0.5 表示說話者已完成發言。

模型架構

骨幹網絡：wav2vec2 編碼器
頭部網絡：淺層線性分類器
參數數量：9480 萬（float32）
檢查點：360 MB Safetensors（壓縮）

在消融研究中，wav2vec2 + 線性 配置的性能優於 LSTM 和更深層的 Transformer 變體。

訓練數據

來源	類型	劃分	語言
`human_5_all`	人工錄製	訓練集/開發集/測試集	英語
`chirp3_1`	合成（Google Chirp3 TTS）	訓練集/開發集/測試集	14 種語言

句子使用 Gemini 2.5 Flash 進行清理，以去除不合語法、有爭議或僅用於書面表達的文本。
使用 Claude 和 GPT-o3 為每種語言構建填充詞列表（如“um”、“えーと”），並將其插入句子末尾附近，以訓練模型識別中斷的語音。

所有音頻/文本對均發佈在 pipecat-ai/datasets 倉庫中。

評估與性能

未見合成測試集上的準確率（50% 完整 / 50% 不完整）

語言	準確率	語言	準確率
英語	94.3%	意大利語	94.4%
法語	95.5%	韓語	95.5%
西班牙語	92.1%	葡萄牙語	95.5%
德語	95.8%	土耳其語	96.8%
荷蘭語	96.7%	波蘭語	94.6%
俄語	93.0%	印地語	91.2%
中文	87.2%	-	-