wav2vec2-xls-r-adult-child-clsオープンソース音声分類モデル

ホーム

Wav2vec2 Xls R Adult Child Cls

bookbotによって開発

XLS-Rアーキテクチャに基づく音声分類モデルで、成人と児童の音声を区別します。

音声分類

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声分類 #成人児童識別 #XLS-Rアーキテクチャ

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルは、プライベートな成人/児童音声分類データセットでwav2vec2-xls-r-300mをファインチューニングしたバージョンで、主に音声分類タスクに使用されます。

モデル特徴

高精度

評価データセットで94.69%の精度と0.9508のF1値を達成しました。

XLS-Rアーキテクチャ採用

XLS-Rアーキテクチャの強力な特徴抽出能力を活用した音声分類です。

効率的なトレーニング

勾配蓄積と線形学習率スケジューラを使用してトレーニングプロセスを最適化しました。

モデル能力

音声分類

成人/児童音声識別

使用事例

音声分析

児童音声認識

児童の音声を識別・分類するために使用され、教育や児童向け製品分野に適しています。

精度94.69%

成人音声認識

成人の音声を識別・分類するために使用され、カスタマーサービスや音声アシスタント分野に適しています。

F1値0.9508

🚀 Wav2Vec2 XLS-R 成人/子供音声分類器

Wav2Vec2 XLS-R 成人/子供音声分類器は、XLS-R アーキテクチャに基づく音声分類モデルです。このモデルは、wav2vec2-xls-r-300m を非公開の成人/子供音声分類データセットでファインチューニングしたバージョンです。

このモデルは、HuggingFaceのPyTorchフレームワークを使用してトレーニングされました。すべてのトレーニングは、Kaggleが提供するTesla P100で行われました。トレーニングメトリクスはTensorboardを介して記録されました。

✨ 主な機能

このモデルは、成人と子供の音声を高精度に分類することができます。XLS-Rアーキテクチャをベースにしているため、多様な音声データに対して強力な性能を発揮します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル

プロパティ	詳細
モデル名	`wav2vec2-xls-r-adult-child-cls`
パラメータ数	300M
アーキテクチャ	XLS-R
トレーニング/検証データ (テキスト)	成人/子供音声分類データセット

評価結果

モデルは、評価で以下の結果を達成しています。

データセット	損失	正解率	F1値
成人/子供音声分類	0.1851	94.69%	0.9508

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 3e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 32
optimizer: Adam (betas=(0.9,0.999) および epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	正解率	F1値
0.2906	1.0	383	0.1856	0.9372	0.9421
0.1749	2.0	766	0.1925	0.9418	0.9465
0.1681	3.0	1149	0.1893	0.9414	0.9459
0.1295	4.0	1532	0.1851	0.9469	0.9508
0.2031	5.0	1915	0.1944	0.9423	0.9460