V

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

gaunernstによって開発
視覚トランスフォーマー(ViT)ベースのオーディオ処理モデル、自己教師ありマスクオートエンコーダ(MAE)手法でAudioSet-2Mで事前学習し、AudioSet-20kでファインチューニング
ダウンロード数 335
リリース時間 : 11/16/2023

モデル概要

このモデルは主にオーディオ分類と特徴抽出タスクに使用され、16kHzサンプリングレートのオーディオ入力を処理し分類結果または特徴ベクトルを出力

モデル特徴

自己教師あり事前学習
マスクオートエンコーダ(MAE)手法を使用しAudioSet-2Mで自己教師あり事前学習を行い、効果的にオーディオ特徴を学習
ファインチューニング最適化
AudioSet-20kデータセットでファインチューニングを行い、特定タスクの性能を向上
効率的な処理
1024フレームのオーディオ入力を固定処理し、標準化長さのオーディオセグメントのバッチ処理に適している

モデル能力

オーディオ分類
オーディオ特徴抽出
メルスペクトル分析

使用事例

オーディオ分析
オーディオイベント検出
オーディオ中の特定イベントまたは音声カテゴリを識別
オーディオ内容理解
下流タスク用にオーディオ内容の特徴表現を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase