V

Vit Spectrogram

prashanth0205によって開発
Vision Transformerアーキテクチャに基づくスペクトログラム分類モデルで、音声スペクトログラムの性別特徴(男性/女性分類)を識別するために使用されます
ダウンロード数 24
リリース時間 : 7/6/2022

モデル概要

このモデルは、google/vit-base-patch16-224-in21k事前学習モデルをベースに、メルスペクトログラムデータに対してファインチューニングされたビジョントランスフォーマーモデルで、主に音声の性別分類タスクに使用されます。

モデル特徴

事前学習ViTモデルに基づくファインチューニング
google/vit-base-patch16-224-in21kの事前学習重みで初期化し、スペクトログラムデータでファインチューニングを行います
効率的なスペクトログラム処理
音声をメルスペクトログラムに変換後、ビジョントランスフォーマーで処理と分類を行います
混合精度トレーニング
mixed_float16精度を使用してトレーニングを行い、計算効率とモデル精度のバランスを取ります

モデル能力

音声スペクトログラム分析
性別分類(男性/女性)
メルスペクトログラム特徴抽出

使用事例

音声分析
音声性別識別
音声スペクトログラムを分析して話者の性別を判断します
検証セット精度93.66%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase