wav2vec2-base-ft-keyword-spotting-int8オープンソースモデル - 無料で音声キーワード検出を行う

ホーム

Wav2vec2 Base Ft Keyword Spotting Int8

dkurtによって開発

wav2vec2アーキテクチャに基づく音声キーワード検出モデル、OpenVINO量子化で最適化

音声認識

Transformers

#キーワード検出 #音声認識 #OpenVINO量子化

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声処理モデルで、キーワード検出タスク専用です。Optimum OpenVINO量子化処理により、高い精度を維持しながら推論効率が向上しています。

モデル特徴

効率的な量子化

Optimum OpenVINOによる量子化処理で、精度が2.74%しか低下しない状態で推論効率が大幅に向上

高精度

評価データセットで0.9828のベンチマーク精度を達成、量子化後も0.9553の高精度を維持

軽量

wav2vec2-baseアーキテクチャに基づき、比較的軽量でエッジデバイスへの展開に適している（推論）

モデル能力

音声キーワード認識

リアルタイム音声処理

エッジデバイス展開

使用事例

スマートホーム

音声ウェイクワード検出

'Hey Siri'や'OK Google'などのデバイスウェイクワードを検出

高精度によりデバイスが確実に反応

産業用途

音声制御コマンド認識

騒がしい産業環境で特定の音声コマンドを認識

量子化後のモデルはエッジデバイスへの展開に適している

属性	詳細
評価データ精度（ベースライン）	0.9828
評価データ精度（量子化版）	0.9553 (-0.0274)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base Ft Keyword Spotting Int8

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声キーワード検出モデル（量子化版）

📚 ドキュメント

評価データにおける精度比較