Wav2vec2 Base Finetuned Ks

W

Wav2vec2 Base Finetuned Ks

FerhatDkによって開発

facebook/wav2vec2-baseモデルをベースにファインチューニングした音声認識モデルで、評価セットで87.27%の精度を達成しました。

オープンソースライセンス:Apache-2.0 #音声認識 #高精度 #ファインチューニングモデル

ダウンロード数 38

リリース時間 : 9/22/2022

モデル概要

このモデルはwav2vec2-baseアーキテクチャをベースにしたファインチューニング版で、主に音声認識タスクに使用されます。

モデル特徴

高精度

評価セットで87.27%の精度を達成

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseをベースモデルとして使用

最適化トレーニング

コサイン学習率スケジューラとAdamオプティマイザを使用して25エポックのファインチューニングを実施

モデル能力

音声認識

音声特徴抽出

使用事例

音声処理

音声コマンド認識

簡単な音声コマンドを認識

精度87.27%

🚀 wav2vec2-base-finetuned-ks

このモデルは、facebook/wav2vec2-base を None データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3550
正解率: 0.8727

📚 ドキュメント

モデルの概要

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率: 5e-05
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: cosine
学習率スケジューラのウォームアップ比率: 0.1
学習率スケジューラのウォームアップステップ: 500
エポック数: 25

学習結果

学習損失	エポック	ステップ	検証損失	正解率
ログなし	1.0	8	0.6840	0.6
0.6867	2.0	16	0.6780	0.6364
0.6742	3.0	24	0.6601	0.6182
0.6446	4.0	32	0.6294	0.6364
0.6299	5.0	40	0.6002	0.6727
0.6299	6.0	48	0.5755	0.7091
0.6021	7.0	56	0.5530	0.7273
0.5678	8.0	64	0.5036	0.8182
0.5512	9.0	72	0.4753	0.8545
0.4784	10.0	80	0.4184	0.9273
0.4784	11.0	88	0.4102	0.8909
0.4515	12.0	96	0.4444	0.8182
0.4878	13.0	104	0.3780	0.9091
0.4418	14.0	112	0.4570	0.8
0.4746	15.0	120	0.3870	0.8545
0.4746	16.0	128	0.3932	0.8364
0.4226	17.0	136	0.2779	0.9636
0.4301	18.0	144	0.3125	0.9455
0.3482	19.0	152	0.3212	0.9091
0.3611	20.0	160	0.3925	0.8364
0.3611	21.0	168	0.3389	0.8909
0.3507	22.0	176	0.3099	0.8727
0.3241	23.0	184	0.3120	0.8727
0.2533	24.0	192	0.2313	0.9455
0.2466	25.0	200	0.3550	0.8727

フレームワークのバージョン

Transformers 4.30.2
Pytorch 2.0.1+cu118
Datasets 2.13.1
Tokenizers 0.13.3

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase