silero-vad-coremlオープンソースモデル - Appleプラットフォームでのリアルタイム音声活動検出の無料デプロイ

ホーム

Silero Vad Coreml

FluidInferenceによって開発

CoreML Silero VADは、Silero音声アクティビティ検出（VAD）モデルのCoreML実装で、Appleプラットフォーム（iOS/macOS）向けに最適化され、リアルタイムの音声アクティビティ検出機能を提供します。

音声認識英語オープンソースライセンス:MIT #リアルタイム音声検出 #低遅延VAD #Appleプラットフォーム最適化

ダウンロード数 461

リリース時間 : 7/7/2025

モデル概要

このモデルは、オーディオ内の音声アクティビティの有無を検出するために使用され、リアルタイム音声処理、自動音声認識（ASR）システムの前処理、およびオーディオ分割とフィルタリングに適しています。

モデル特徴

効率的なリアルタイム処理

Appleチップ（M1/M2）上で、32msのオーディオチャンク処理の遅延は2ms未満で、リアルタイム係数は0.02xです。

低リソース使用

モデルの総サイズは約2MB、メモリ使用量は約15MB、CPU使用率は5%未満（単コア）です。

高い精度

一般的な音声データセットで、精度は94.2%、再現率は92.8%、F1スコアは93.5%です。

Appleプラットフォーム最適化

iOS/macOSプラットフォーム向けに最適化され、事前変換されたCoreMLモデルを含み、Swiftアプリケーションで直接使用できます。

モデル能力

リアルタイム音声アクティビティ検出

オーディオ前処理

オーディオ分割

オーディオフィルタリング

使用事例

音声処理

リアルタイム音声アクティビティ検出

iOS/macOSアプリケーションでリアルタイムに音声アクティビティを検出します。

高い精度で音声アクティビティを検出し、遅延が低い。

自動音声認識（ASR）前処理

ASRシステムの音声前処理を行い、認識効率を向上させます。

ASRシステムの入力品質を最適化します。

オーディオ分割とフィルタリング

オーディオを分割し、フィルタリングして、有効な音声部分を抽出します。

オーディオ処理の効率と精度を向上させます。

🚀 CoreML Silero VAD

Silero音声活性検出（VAD）モデルのCoreML実装で、Appleプラットフォーム（iOS/macOS）向けに最適化されています。このリポジトリには、Swiftアプリケーションですぐに使用できる事前変換済みのCoreMLモデルが含まれています。

🚀 クイックスタート

このセクションでは、CoreML Silero VADモデルの基本的な使い方を紹介します。

✨ 主な機能

iOS/macOSアプリケーションにおけるリアルタイムの音声活性検出
ASRシステムの音声前処理
音声のセグメンテーションとフィルタリング

📦 インストール

SwiftプロジェクトにFluidAudioを追加します。

dependencies: [
    .package(url: "https://github.com/FluidAudio/FluidAudioSwift.git", from: "1.0.0")
]

💻 使用例

基本的な使用法

import FluidAudio

let config = VADConfig(
    threshold: 0.3,
    chunkSize: 512, // 512が最適
    sampleRate: 16000
)

let vadManager = VADManager(config: config)
try await vadManager.initialize()

// 音声チャンクを処理
let result = try await vadManager.processChunk(audioChunk)
print("音声確率: \(result.probability)")
print("音声がアクティブか: \(result.isVoiceActive)")

📚 ドキュメント

モデルの説明

開発者: Sileroチーム（オリジナル）、FluidAudioによる変換
モデルタイプ: 音声活性検出
ライセンス: MIT
親モデル: silero-vad

モデルの詳細

属性	详情
モデルタイプ	音声活性検出
アーキテクチャ	STFT + エンコーダ + RNNデコーダパイプライン
入力	16kHzモノラル音声チャンク（512サンプル / 32ms）
出力	音声活性確率（0.0 - 1.0）
メモリ	約2MBの総モデルサイズ

想定される用途

主な使用例

iOS/macOSアプリケーションにおけるリアルタイムの音声活性検出
ASRシステムの音声前処理
音声のセグメンテーションとフィルタリング

性能

Apple Silicon（M1/M2）でのベンチマーク結果です。

メトリック	値
レイテンシ	32msチャンクあたり<2ms
リアルタイム係数	0.02x
メモリ使用量	約15MB
CPU使用率	<5%（シングルコア）

精度メトリック

一般的な音声データセットで評価されました。

精度: 94.2%
再現率: 92.8%
F1スコア: 93.5%

モデルファイル

このリポジトリには、一緒に動作する3つのCoreMLモデルが含まれています。

silero_stft.mlmodel (650KB) - STFT特徴抽出
silero_encoder.mlmodel (254KB) - 特徴エンコーディング
silero_rnn_decoder.mlmodel (527KB) - RNNベースの分類

学習データ

元のSilero VADモデルは、以下を含む多様なデータセットで学習されました。

クリーンな音声オーディオ
さまざまな背景条件のノイズ付き音声
ネガティブサンプルとしての音楽や非音声オーディオ

制限事項とバイアス

既知の制限事項

16kHzサンプルレートに最適化されているため、他のレートでは精度が低下する可能性があります。
非常に静かな音声（<-30dB SNR）では性能が低下する可能性があります。
マイクの品質や録音条件によって性能が異なります。

🔧 技術詳細

モデルアーキテクチャ

音声入力 (512サンプル, 16kHz) ↓ STFTモデル (スペクトル特徴) ↓ エンコーダモデル (特徴圧縮) ↓ RNNデコーダ (時間的モデリング) ↓ 音声確率出力

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。詳細はLICENSEファイルを参照してください。元のSilero VADモデルもMITライセンスの下です。詳細はこちらを参照してください。

引用

@misc{silero-vad-coreml,
  title={CoreML Silero VAD},
  author={FluidAudio Team},
  year={2024},
  url={https://huggingface.co/alexwengg/coreml-silero-vad}
}

@misc{silero-vad,
  title={Silero VAD},
  author={Silero Team},
  year={2021},
  url={https://github.com/snakers4/silero-vad}
}