my_frugal_audio_modelオープンソースオーディオ処理モデル - 無料でデプロイして各種音声タスクをサポート

My Frugal Audio Model

hsalehILBによって開発

これはfacebook/wav2vec2-baseをファインチューニングした音声処理モデルで、主に音声関連タスクに使用されます

ダウンロード数 1

リリース時間 : 1/31/2025

モデル概要

このモデルはfacebook/wav2vec2-baseのファインチューン版で、音声処理タスクに適しており、検証セットで88.62%の精度を達成しました

高精度

検証セットで88.62%の精度を達成

効率的なトレーニング

混合精度トレーニングを使用し、トレーニング効率を最適化

wav2vec2ベース

確立されたwav2vec2-baseアーキテクチャを基に構築

音声処理

音声特徴抽出

音声認識

音声からテキストへ

音声信号をテキスト内容に変換

精度88.62%

学習損失	エポック	ステップ	検証損失	精度
2.2322	1.0	46	0.3207	0.8862
1.5211	2.0	92	0.3357	0.8577

属性	详情
モデルタイプ	このモデルはfacebook/wav2vec2-baseをファインチューニングしたものです。
学習データ	不明なデータセット
評価指標	精度
フレームワークバージョン	Transformers 4.47.1、Pytorch 2.5.1+cu124、Datasets 3.2.0、Tokenizers 0.21.0