0 - 9up - ast - ftオープンソースオーディオ分類モデル - 0～9の数字音声コマンドを正確に識別

ホーム

0 9up Ast Ft

mazkoolegによって開発

このモデルはMIT/ast-finetuned-speech-commands-v2をベースに数字音声コマンドデータセットでファインチューニングされたオーディオ分類モデルで、0-9の数字音声コマンド認識に主に使用されます

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #音声コマンド認識 #高精度 #オーディオ分類

ダウンロード数 19

リリース時間 : 2/26/2023

モデル概要

これは音声コマンド認識タスク向けに特別にファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)モデルで、数字認識において優れた性能を発揮します

モデル特徴

高精度

評価データセットで99.79%の精度を達成

ファインチューニング最適化

事前学習済みモデルを特定の音声コマンドデータセットで最適化

効率的なトレーニング

勾配蓄積などの技術を使用して効率的なトレーニングを実現

モデル能力

数字音声認識

オーディオ分類

コマンド単語検出

使用事例

音声インタラクション

数字音声入力システム

数字入力が必要な音声インタラクションシステム向け

高精度な数字認識

音声制御デバイス

数字コマンドをサポートするスマートホームや産業機器制御

トレーニング損失	エポック	ステップ	正解率	検証損失
0.1781	1.0	8558	0.9970	0.1609
0.0217	2.0	17116	0.9979	0.0210
0.018	3.0	25674	0.9979	0.0144
0.0215	4.0	34232	0.9976	0.0129
0.0407	5.0	42790	0.9976	0.0126

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

0 9up Ast Ft

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ast-finetuned-speech-commands-v2-finetuned

📚 ドキュメント

トレーニング手順

トレーニングハイパーパラメータ

トレーニング結果

フレームワークバージョン

📄 ライセンス