my_awesome_mind_modelオープンソース音声分類モデル - 無料でデプロイ、音声カテゴリを正確に識別

ホーム

My Awesome Mind Model

faaanyによって開発

facebook/wav2vec2-baseをminds14データセットでファインチューニングした音声分類モデル

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声分類 #wav2vec2ファインチューニング #低精度モデル

ダウンロード数 1

リリース時間 : 10/20/2024

モデル概要

このモデルは音声分類タスク用のファインチューニングモデルで、wav2vec2アーキテクチャに基づき、minds14データセットでトレーニングされました。

モデル特徴

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseをベースモデルとして使用し、優れた音声特徴抽出能力を備えています

minds14データセット向け最適化

minds14音声データセットに特化してファインチューニングされています

軽量トレーニング設定

適度なバッチサイズと学習率でトレーニングされており、リソースが限られた環境に適しています

モデル能力

音声分類

英語音声認識

使用事例

音声処理

音声コマンド分類

音声コマンドの識別と分類に使用可能

音声感情分析

音声に含まれる感情傾向の分析に使用可能

🚀 素敵な音声モデル

このモデルは、音声分類タスクに特化したモデルです。facebook/wav2vec2-base を minds14 データセットでファインチューニングしたもので、評価セットで一定の精度を達成しています。

🚀 クイックスタート

このモデルは、音声分類タスクに使用できます。以下のような手順で利用できます。

必要なライブラリをインストールする。
モデルをロードする。
音声データを入力して予測を行う。

✨ 主な機能

音声分類タスクに対応しています。
事前学習モデルをファインチューニングしており、精度が向上しています。

📦 インストール

このモデルを使用するには、以下のライブラリが必要です。

pip install transformers datasets pytorch tokenizers

📚 ドキュメント

モデル概要

このモデルは facebook/wav2vec2-base を minds14 データセットでファインチューニングしたものです。評価セットでの結果は以下の通りです。

損失: 2.6610
精度: 0.0354

想定用途と制限事項

詳細な情報は後日追加予定です。

学習と評価データ

詳細な情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習時に使用したハイパーパラメータは以下の通りです。

学習率: 3e-05
学習バッチサイズ: 32
評価バッチサイズ: 32
シード: 42
勾配累積ステップ数: 4
総学習バッチサイズ: 128
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
学習率スケジューラのウォームアップ比率: 0.1
エポック数: 10

学習結果

学習損失	エポック	ステップ	検証損失	精度
ログなし	0.8	3	2.6409	0.0796
ログなし	1.8667	7	2.6512	0.0531
2.6357	2.9333	11	2.6602	0.0442
2.6357	4.0	15	2.6632	0.0354
2.6357	4.8	18	2.6638	0.0354
2.6251	5.8667	22	2.6643	0.0354
2.6251	6.9333	26	2.6623	0.0354
2.6159	8.0	30	2.6610	0.0354