ast-finetuned-speech-commands-v2オープンソースオーディオモデル - 高精度でオーディオ分類タスクを完了する

ホーム

Ast Finetuned Speech Commands V2

MITによって開発

Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #高精度音声分類 #音声コマンド認識 #スペクトログラムトランスフォーマー

ダウンロード数 10.94k

リリース時間 : 11/14/2022

モデル概要

このモデルは音声をスペクトログラムに変換した後、視覚トランスフォーマーアーキテクチャを適用し、音声コマンド分類タスク専用に設計されています。

モデル特徴

高精度

Speech Commands v2データセットで98.12%の分類精度を達成

スペクトログラム変換

音声信号をスペクトログラムに変換後、視覚トランスフォーマー技術を適用

エンドツーエンド学習

生の音声データから直接特徴を学習し、手動の特徴エンジニアリングが不要

モデル能力

音声コマンド認識

音声分類

短音声処理

使用事例

スマートホーム制御

音声制御デバイス

ユーザーの音声コマンドを認識しスマートホームデバイスを制御

一般的な制御コマンドを高精度で認識

アクセシビリティアプリケーション

音声支援ツール

身体障害のあるユーザー向けに音声制御インターフェースを提供

プロパティ	詳細
モデル名	MIT/ast-finetuned-speech-commands-v2
タスクタイプ	音声分類
データセット	Speech Commands v2
評価指標	精度（98.12%）

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Speech Commands V2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声スペクトログラムトランスフォーマー (Speech Commands v2でファインチューニング済み)

📚 ドキュメント

モデルの説明

使用方法

📄 ライセンス

📊 モデル指標