オープンソースのvit_spectrogramモデル - 音声スペクトログラムにおける男女の性別特徴を高精度に識別

ホーム

Vit Spectrogram

prashanth0205によって開発

Vision Transformerアーキテクチャに基づくスペクトログラム分類モデルで、音声スペクトログラムの性別特徴（男性/女性分類）を識別するために使用されます

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #スペクトログラム分類 #性別識別 #ViTファインチューニング

ダウンロード数 24

リリース時間 : 7/6/2022

モデル概要

このモデルは、google/vit-base-patch16-224-in21k事前学習モデルをベースに、メルスペクトログラムデータに対してファインチューニングされたビジョントランスフォーマーモデルで、主に音声の性別分類タスクに使用されます。

モデル特徴

事前学習ViTモデルに基づくファインチューニング

google/vit-base-patch16-224-in21kの事前学習重みで初期化し、スペクトログラムデータでファインチューニングを行います

効率的なスペクトログラム処理

音声をメルスペクトログラムに変換後、ビジョントランスフォーマーで処理と分類を行います

混合精度トレーニング

mixed_float16精度を使用してトレーニングを行い、計算効率とモデル精度のバランスを取ります

モデル能力

音声スペクトログラム分析

性別分類（男性/女性）

メルスペクトログラム特徴抽出

使用事例

音声分析

音声性別識別

音声スペクトログラムを分析して話者の性別を判断します

検証セット精度93.66%

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit Spectrogram

モデル概要

モデル特徴

モデル能力

使用事例

🚀 vit_spectrogram

📚 ドキュメント

モデルの説明

想定される用途と制限

訓練と評価データ

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークのバージョン

📄 ライセンス