wav2vec2-base_down_onオープンソース音声分類モデル - 'down'と'on'の発音を正確に区別する

ホーム

Wav2vec2 Base Down On

MatsRoothによって開発

facebook/wav2vec2-baseをファインチューニングした二値音声分類モデルで、'down'と'on'の発音を区別するために特別に設計されています

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声コマンド分類 #高精度 #二値分類モデル

ダウンロード数 20

リリース時間 : 7/15/2023

モデル概要

このモデルはMatsRooth/down_onデータセットでfacebook/wav2vec2-baseをファインチューニングしたバージョンで、単語'down'と'on'の二値分類タスク用です。評価セットで99.62%の精度を達成しています

モデル特徴

高精度

評価セットで99.62%の分類精度を達成

軽量なファインチューニング

事前学習済みのwav2vec2-baseモデルを基に効率的にファインチューニング

特定コマンド認識

'down'と'on'の2つの音声コマンドに特化して最適化

モデル能力

音声コマンド分類

音声特徴抽出

二値音声認識

使用事例

音声制御

スマートホーム制御

スイッチコマンドの認識（例：'ライトオン'や'ライトオフ'などの音声コマンド）

99%以上のコマンド認識精度を実現

音声インタラクションシステム

音声アシスタントの基礎コンポーネントとして、簡単なコマンドを認識

教育アプリケーション

発音評価

英語学習者の'down'と'on'の発音を自動採点

🚀 wav2vec2-base_down_on

このモデルは、facebook/wav2vec2-base を MatsRooth/down_on データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1385
正確度: 0.9962

🚀 クイックスタート

このモデルは、facebook/wav2vec2-base をベースに構築された音声分類モデルです。特定のデータセットでファインチューニングされ、高い正確度を達成しています。

✨ 主な機能

「down」と「on」の2値音声分類を行うことができます。
データのレイアウト、トレーニング、評価のデモとして利用できます。

📚 ドキュメント

モデルの説明

「down」と「on」の単語に対して、facebook/wav2vec2/base を使用した2値分類器です。

想定される用途と制限

これは、PythonとSlurmを使用したデータのレイアウト、トレーニング、評価を示す2値音声分類のデモです。

トレーニングと評価データ

データは superb ks 内の「down」と「on」の発話です。サブセット化については down_on_copy.py を参照してください。これにより、wavファイルは down_on/data/train/on や down_on/data/train/down のような場所に配置されます。