wav2vec2-base-finetuned-ksオープンソース音声分類モデル - 高精度で無料でデプロイ可能、音声認識をサポート

ホーム

Wav2vec2 Base Finetuned Ks

motheecreatorによって開発

wav2vec2-baseモデルをオーディオフォルダデータセットでファインチューニングしたオーディオ分類モデルで、検証セットの精度は99.82%

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #オーディオ分類 #高精度 #音声認識

ダウンロード数 54

リリース時間 : 4/16/2024

モデル概要

このモデルはwav2vec2-baseアーキテクチャのファインチューニング版で、オーディオ分類タスク専用です。評価セットで非常に高い精度(99.82%)を示し、高精度なオーディオ分類が必要なアプリケーションに適しています。

モデル特徴

高精度

検証セットで99.82%の分類精度を達成

wav2vec2アーキテクチャ採用

実績のあるwav2vec2-baseアーキテクチャをベースモデルとして採用

効率的なファインチューニング

わずか5エポックのトレーニングで高性能を実現

モデル能力

オーディオ分類

音声特徴抽出

使用事例

音声認識

キーワード認識

オーディオ中の特定のキーワードやフレーズを識別

高精度なキーワード検出

オーディオ分析

オーディオイベント検出

オーディオ中の特定のイベントや音を検出・分類

プロパティ	詳細
モデルタイプ	wav2vec2-base-finetuned-ks
訓練データ	audiofolder
メトリクス	正解率
ライセンス	Apache-2.0

訓練損失	エポック	ステップ	検証損失	正解率
0.0528	0.99	79	0.0318	0.9947
0.0246	1.99	159	0.0132	0.9978
0.0142	3.0	239	0.0158	0.9978
0.007	4.0	319	0.0117	0.9982
0.0004	4.95	395	0.0147	0.9982

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base Finetuned Ks

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-base-finetuned-ks

📚 ドキュメント

モデル情報

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークバージョン

📄 ライセンス