Vit Spectrogram
Vision Transformerアーキテクチャに基づくスペクトログラム分類モデルで、音声スペクトログラムの性別特徴(男性/女性分類)を識別するために使用されます
ダウンロード数 24
リリース時間 : 7/6/2022
モデル概要
このモデルは、google/vit-base-patch16-224-in21k事前学習モデルをベースに、メルスペクトログラムデータに対してファインチューニングされたビジョントランスフォーマーモデルで、主に音声の性別分類タスクに使用されます。
モデル特徴
事前学習ViTモデルに基づくファインチューニング
google/vit-base-patch16-224-in21kの事前学習重みで初期化し、スペクトログラムデータでファインチューニングを行います
効率的なスペクトログラム処理
音声をメルスペクトログラムに変換後、ビジョントランスフォーマーで処理と分類を行います
混合精度トレーニング
mixed_float16精度を使用してトレーニングを行い、計算効率とモデル精度のバランスを取ります
モデル能力
音声スペクトログラム分析
性別分類(男性/女性)
メルスペクトログラム特徴抽出
使用事例
音声分析
音声性別識別
音声スペクトログラムを分析して話者の性別を判断します
検証セット精度93.66%
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98