0

0 9up Ast Ft

mazkoolegによって開発
このモデルはMIT/ast-finetuned-speech-commands-v2をベースに数字音声コマンドデータセットでファインチューニングされたオーディオ分類モデルで、0-9の数字音声コマンド認識に主に使用されます
ダウンロード数 19
リリース時間 : 2/26/2023

モデル概要

これは音声コマンド認識タスク向けに特別にファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)モデルで、数字認識において優れた性能を発揮します

モデル特徴

高精度
評価データセットで99.79%の精度を達成
ファインチューニング最適化
事前学習済みモデルを特定の音声コマンドデータセットで最適化
効率的なトレーニング
勾配蓄積などの技術を使用して効率的なトレーニングを実現

モデル能力

数字音声認識
オーディオ分類
コマンド単語検出

使用事例

音声インタラクション
数字音声入力システム
数字入力が必要な音声インタラクションシステム向け
高精度な数字認識
音声制御デバイス
数字コマンドをサポートするスマートホームや産業機器制御
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase