Smart Turn v2オープンソース音声検出モデル - 波形を分析して話者の発言が終了したかどうかを判断

ホーム

Smart Turn V2

pipecat-aiによって開発

Smart Turn v2は、オープンソースの意味論的音声活動検出（VAD）モデルで、生の波形を分析することで話者が発言を終了したかどうかを判断します。

音声認識

Safetensors

その他#多言語音声端点検出 #リアルタイム音声インタラクション #低遅延VAD

ダウンロード数 670

リリース時間 : 7/11/2025

モデル概要

このモデルは多言語に対応しており、モデルサイズが小さく、速度が速いため、音声アシスタントやリアルタイム文字起こしなどのシーンに適しています。

モデル特徴

多言語対応

14種類の言語をサポートし、異なる言語環境での音声活動検出のニーズを満たします。

モデルサイズが小さい

v1バージョンと比較して、モデルサイズが6分の1に縮小され、約360MBになり、より簡単にデプロイして使用できます。

速度が速い

音声分析の速度が3倍に向上し、NVIDIA L40Sで8秒の音声を分析するのに約12ミリ秒しかかりません。

モデル能力

意味論的音声活動検出

多言語音声分析

リアルタイム音声処理

使用事例

音声アシスタント/チャットボット

ユーザーの打ち切りを避ける

ユーザーが本当に話を終えた後に返答し、ユーザーの打ち切りを避けます。

ユーザー体験を向上させる

リアルタイム文字起こし + 音声合成（TTS）

TTSをトリガーする

ユーザーの発言が終了したときにのみTTSをトリガーし、「双方向対話」を避けます。

文字起こしの精度を向上させる

コールセンター支援と分析

話者分離と感情分析

話者分離と感情分析パイプラインに正確な分割を提供します。

分析効率を向上させる

🚀 Smart Turn v2

Smart Turn v2 は、オープンソースのセマンティック音声活動検出（VAD）モデルです。このモデルは、文字起こしではなく生の波形を分析することで、「話者が発話を終えたかどうか」 を判断します。
v1と比較すると、以下のような特徴があります。

多言語対応 – 14の言語（英語、フランス語、ドイツ語、スペイン語、ポルトガル語、中国語、日本語、ヒンディー語、イタリア語、韓国語、オランダ語、ポーランド語、ロシア語、トルコ語）に対応。
6倍小さい – 約360MB（v1は2.3GB）。
3倍高速 – NVIDIA L40Sで8秒の音声を分析するのに約12ms（v1より高速）。

🚀 クイックスタート

基本的な使用法

from transformers import pipeline
import soundfile as sf

pipe = pipeline(
    "audio-classification",
    model="pipecat-ai/smart-turn-v2",
    feature_extractor="facebook/wav2vec2-base"
)

speech, sr = sf.read("user_utterance.wav")
if sr != 16_000:
    raise ValueError("Resample to 16 kHz")

result = pipe(speech, top_k=None)[0]
print(f"Completed turn? {result['label']}  Prob: {result['score']:.3f}")
# label == 'complete' → user has finished speaking

✨ 主な機能

対応言語

このモデルは、以下の14の言語に対応しています。

性能向上

v1と比較して、以下の点で性能が向上しています。

サイズが6倍小さい：約360MB（v1は2.3GB）。
速度が3倍速い：NVIDIA L40Sで8秒の音声を分析するのに約12ms（v1より高速）。

📚 ドキュメント

想定される使用法とタスク

使用例	このモデルが役立つ理由
音声エージェント / チャットボット	ユーザーが本当に話を終えるまで応答を待つことができます。
リアルタイム文字起こし + TTS	ユーザーの発話が終わったときにのみTTSをトリガーすることで、「二重話」を回避できます。
コールセンターアシスト & 分析	話者分離や感情分析のパイプラインに対して正確なセグメンテーションを行うことができます。
セマンティックVADが必要なプロジェクト	古典的なエネルギーベースのVADでは無視される不完全な思考、フィラーワード（「um …」、「えーと …」）、イントネーションの手がかりを検出します。

モデルは単一の確率を出力します。値が0.5以上の場合、話者が発話を完了したことを示します。

モデルアーキテクチャ

バックボーン：wav2vec2 エンコーダ
ヘッド：浅い線形分類器
パラメータ：94.8M（float32）
チェックポイント：360MB Safetensors（圧縮済み）

アブレーション研究では、wav2vec2 + 線形 の構成がLSTMやより深いトランスフォーマーのバリアントよりも優れた性能を示しました。

学習データ

ソース	タイプ	分割	言語
`human_5_all`	人間による録音	トレーニング / 検証 / テスト	英語
`chirp3_1`	合成音声（Google Chirp3 TTS）	トレーニング / 検証 / テスト	14の言語

文はGemini 2.5 Flashを使用してクリーニングされ、文法的に誤りがある、論争的な、または書き言葉のみのテキストが削除されました。
各言語のフィラーワードリスト（例：「um」、「えーと」）はClaudeとGPT-o3を使用して作成され、文の末尾近くに注入されることで、モデルに中断された発話について学習させました。

すべての音声/テキストペアは、pipecat-ai/datasets ハブで公開されています。

評価と性能

未知の合成テストセットでの精度（50％完了 / 50％未完了）

言語	精度（％）	言語	精度（％）
英語	94.3	イタリア語	94.4
フランス語	95.5	韓国語	95.5
スペイン語	92.1	ポルトガル語	95.5
ドイツ語	95.8	トルコ語	96.8
オランダ語	96.7	ポーランド語	94.6
ロシア語	93.0	ヒンディー語	91.2
中国語	87.2	–	–