Smart Turn V2
Smart Turn v2は、オープンソースの意味論的音声活動検出(VAD)モデルで、生の波形を分析することで話者が発言を終了したかどうかを判断します。
ダウンロード数 670
リリース時間 : 7/11/2025
モデル概要
このモデルは多言語に対応しており、モデルサイズが小さく、速度が速いため、音声アシスタントやリアルタイム文字起こしなどのシーンに適しています。
モデル特徴
多言語対応
14種類の言語をサポートし、異なる言語環境での音声活動検出のニーズを満たします。
モデルサイズが小さい
v1バージョンと比較して、モデルサイズが6分の1に縮小され、約360MBになり、より簡単にデプロイして使用できます。
速度が速い
音声分析の速度が3倍に向上し、NVIDIA L40Sで8秒の音声を分析するのに約12ミリ秒しかかりません。
モデル能力
意味論的音声活動検出
多言語音声分析
リアルタイム音声処理
使用事例
音声アシスタント/チャットボット
ユーザーの打ち切りを避ける
ユーザーが本当に話を終えた後に返答し、ユーザーの打ち切りを避けます。
ユーザー体験を向上させる
リアルタイム文字起こし + 音声合成(TTS)
TTSをトリガーする
ユーザーの発言が終了したときにのみTTSをトリガーし、「双方向対話」を避けます。
文字起こしの精度を向上させる
コールセンター支援と分析
話者分離と感情分析
話者分離と感情分析パイプラインに正確な分割を提供します。
分析効率を向上させる
おすすめAIモデル
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
その他
Colossus Project FluxのNunchaku量子化バージョンで、テキストプロンプトに基づいて高品質な画像を生成することを目的としています。このモデルは、推論効率を最適化しながら、性能損失を最小限に抑えます。
画像生成 英語
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
画像生成テキスト
Transformers 英語

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。
大規模言語モデル
Transformers 英語

L
Mungert
263
2