ast-finetuned-audioset-10-10-0.4593オープンソースモデル - 高精度な音声分類タスクの実現

ホーム

Ast Finetuned Audioset 10 10 0.4593

Xenovaによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー（AST）モデル、オーディオ分類タスク用

音声分類

Transformers

#オーディオ分類 #ウェブ対応 #ONNX形式

ダウンロード数 82

リリース時間 : 6/27/2023

モデル概要

このモデルはオーディオスペクトログラムトランスフォーマー（AST）アーキテクチャのバリアントで、AudioSetデータセットに特化してファインチューニングされており、汎用オーディオ分類タスクに適しています。様々なオーディオイベントや音声カテゴリを識別・分類できます。

モデル特徴

Transformerベースのオーディオ処理

ビジョントランスフォーマーアーキテクチャを採用してオーディオスペクトログラムを処理し、オーディオ信号のグローバルモデリングを実現

AudioSetファインチューニング

大規模オーディオデータセットAudioSetでファインチューニングされており、幅広いオーディオイベントを識別可能

ウェブ対応

ONNX形式の重みを提供し、Transformers.jsを通じてブラウザで直接実行可能

モデル能力

オーディオ分類

音声イベント検出

環境音認識

使用事例

スマートホーム

ペットの音声モニタリング

ペットが発する音声（猫の鳴き声、犬の吠え声など）を検出・分類

一般的なペットの音声を正確に識別可能

コンテンツモデレーション

オーディオコンテンツ分類

ユーザーがアップロードしたオーディオコンテンツを自動分類

🚀 音声分類モデル（Transformers.js対応）

このプロジェクトは、MIT/ast-finetuned-audioset-10-10-0.4593モデルをTransformers.jsと互換性のあるONNX形式に変換したものです。音声分類タスクに利用できます。

🚀 クイックスタート

ライブラリのインストール

まだインストールしていない場合は、以下のコマンドを使ってNPMからTransformers.js JavaScriptライブラリをインストールできます。

npm i @xenova/transformers

💻 使用例

基本的な使用法

以下のコードでは、Xenova/ast-finetuned-audioset-10-10-0.4593を使って音声分類を行い、上位4つの結果を返します。

import { pipeline } from '@xenova/transformers';

// 音声分類パイプラインを作成
const classifier = await pipeline('audio-classification', 'Xenova/ast-finetuned-audioset-10-10-0.4593');

// クラスを予測
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/cat_meow.wav';
const output = await classifier(url, { topk: 4 });
console.log(output);
// [
//   { label: 'Meow', score: 0.5617874264717102 },
//   { label: 'Cat', score: 0.22365376353263855 },
//   { label: 'Domestic animals, pets', score: 0.1141069084405899 },
//   { label: 'Animal', score: 0.08985692262649536 },
// ]