wav2vec2-base-finetuned-ks音声認識モデル - オープンソースで無料、精度は高達98.34%

ホーム

Wav2vec2 Base Finetuned Ks

marcatanante1によって開発

facebook/wav2vec2-baseをsuperbデータセットでファインチューニングした音声認識モデル、精度98.34%

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声認識 #高精度 #wav2vec2ファインチューニング

ダウンロード数 13

リリース時間 : 3/19/2023

モデル概要

このモデルはwav2vec2-baseのファインチューン版で、音声認識タスク専用、キーワード認識(KS)タスクで優れた性能を発揮

モデル特徴

高精度

評価データセットで98.34%の精度を達成

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseをベースモデルとして使用

superbデータセットでファインチューニング

superbデータセットで専門的にファインチューニング

モデル能力

音声認識

キーワード検出

使用事例

音声インタラクション

スマートホーム制御

ユーザーの音声コマンドからキーワードを認識

特定のコマンドを高精度で識別

音声アシスタント

ウェイクワードや特定コマンドを検出

パラメータ	値
learning_rate	3e-05
train_batch_size	32
eval_batch_size	32
seed	42
gradient_accumulation_steps	4
total_train_batch_size	128
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
lr_scheduler_warmup_ratio	0.1
num_epochs	5

学習損失	エポック	ステップ	検証損失	正解率
0.5959	1.0	399	0.4714	0.9434
0.2623	2.0	798	0.1542	0.9793
0.1809	3.0	1197	0.0953	0.9834
0.1643	4.0	1596	0.0844	0.9825
0.1208	5.0	1995	0.0824	0.9822

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base Finetuned Ks

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-base-finetuned-ks

🚀 クイックスタート

📄 ライセンス

🔧 技術詳細

学習ハイパーパラメータ

学習結果

フレームワークバージョン