wav2vec2-base-finetuned-ksオープンソース音声認識モデル

ホーム

Wav2vec2 Base Finetuned Ks

ngeg2015によって開発

wav2vec2-baseモデルをsuperbデータセットでファインチューニングした音声認識モデルで、精度は98.15%

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声分類 #高精度 #wav2vec2ファインチューニング

ダウンロード数 14

リリース時間 : 12/31/2022

モデル概要

このモデルはfacebook/wav2vec2-baseのファインチューニング版で、キーワード認識タスクに特化しており、superbデータセットで優れた性能を発揮します。

モデル特徴

高精度

評価データセットで98.15%の精度を達成

wav2vec2アーキテクチャ採用

強力なwav2vec2-baseをベースモデルとして使用

専門的なファインチューニング

superbデータセットでキーワード認識タスク向けに特別にファインチューニング

モデル能力

音声認識

キーワード検出

使用事例

音声インタラクション

音声コマンド認識

デバイス制御コマンドを認識

高精度な認識

音声ウェイクワード検出

特定のウェイクワードを検出

学習損失	エポック	ステップ	検証損失	精度
0.7887	1.0	399	0.7190	0.7682
0.3784	2.0	798	0.2387	0.9737
0.2159	3.0	1197	0.1335	0.9785
0.1809	4.0	1596	0.1088	0.9798
0.1527	5.0	1995	0.1020	0.9815

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base Finetuned Ks

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-base-finetuned-ks

🚀 クイックスタート

🔧 技術詳細

学習ハイパーパラメータ

学習結果

フレームワークバージョン

📄 ライセンス