wav2vec2-base-finetuned-ksオープンソース音声認識モデル

ホーム

Wav2vec2 Base Finetuned Ks

Dc26によって開発

facebook/wav2vec2-baseモデルをspeech_commandsデータセットでファインチューニングした音声認識モデルで、精度は97.8%を達成

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声コマンド認識 #高精度 #音声分類

ダウンロード数 23

リリース時間 : 3/25/2023

モデル概要

このモデルは音声コマンド認識用のファインチューニングモデルで、wav2vec2アーキテクチャに基づき、キーワード検出タスクに適しています

モデル特徴

高精度

評価データセットで97.8%の精度を達成

wav2vec2アーキテクチャ採用

強力なwav2vec2-baseをベースモデルとして使用

軽量なファインチューニング

少量のトレーニングデータで良好な性能を実現

モデル能力

音声コマンド認識

キーワード検出

音声分類

使用事例

スマートホーム

音声制御デバイス

ユーザーの音声コマンドを認識してスマートホームデバイスを制御

一般的な制御コマンドを正確に認識

ウェアラブルデバイス

音声アシスタント

リソース制約のあるデバイスで基本的な音声インタラクション機能を実現

学習損失	エポック	ステップ	検証損失	正解率
0.6408	1.0	2651	0.2399	0.9609
0.4113	2.0	5303	0.1284	0.9686
0.3014	3.0	7954	0.1144	0.9706
0.2914	4.0	10606	0.0962	0.9760
0.1621	5.0	13255	0.0880	0.9780

プロパティ	詳細
モデルタイプ	ファインチューニングされたwav2vec2モデル
学習データ	speech_commandsデータセット
評価指標	正解率

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base Finetuned Ks

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-base-finetuned-ks

📚 ドキュメント

モデルの説明

想定される用途と制限事項

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス