distil - wav2vec2オープンソースオーディオ分類モデル

ホーム

Distil Wav2vec2 Xls R Adult Child Cls 64m

bookbotによって開発

XLS-Rアーキテクチャに基づく蒸留版音声分類モデル、成人と児童の音声を区別

音声分類

Transformers

英語オープンソースライセンス:Apache-2.0 #音声年齢分類 #高精度音声認識 #軽量XLS-R

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

このモデルはXLS-Rアーキテクチャの蒸留版で、音声分類タスク専用に設計されており、成人と児童の音声を正確に区別できます。

モデル特徴

効率的な蒸留

XLS-Rアーキテクチャの蒸留版で、パラメータ数を削減しながら高性能を維持

高精度

成人/児童音声分類タスクで93.86%の精度を達成

軽量

わずか64Mパラメータで、リソースが限られた環境での展開に適しています

モデル能力

音声分類

成人/児童音声認識

使用事例

教育技術

児童教育アプリ

児童の音声を認識し、年齢に適した教育コンテンツを提供

教育アプリの年齢適応性向上

音声分析

音声データ分類

音声データを成人と児童に自動分類

93.86%の分類精度

🚀 DistilWav2Vec2 XLS-R 成人/子供音声分類器 64M

DistilWav2Vec2 XLS-R 成人/子供音声分類器は、XLS-R アーキテクチャに基づく音声分類モデルです。このモデルは、wav2vec2-xls-r-adult-child-cls をプライベートな成人/子供音声分類データセットで蒸留したバージョンです。

このモデルは、HuggingFaceのPyTorchフレームワークを使用して学習されました。すべての学習は、Kaggleが提供するTesla P100で行われました。学習メトリクスはTensorboardを介して記録されました。

✨ 主な機能

このモデルは、音声分類タスクに特化しており、成人と子供の音声を高精度に分類することができます。また、XLS-Rアーキテクチャをベースにしているため、効率的な学習と推論が可能です。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

原READMEに使用例のコードが記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデル名	`distil-wav2vec2-xls-r-adult-child-cls-64m`
パラメータ数	64M
アーキテクチャ	XLS-R
学習/検証データ	成人/子供音声分類データセット

評価結果

このモデルは、以下の評価結果を達成しています。

データセット	損失	正解率	F1値
成人/子供音声分類	0.2571	93.86%	0.9425

学習手順

学習ハイパーパラメータ

学習時には、以下のハイパーパラメータが使用されました。

learning_rate: 3e-05
train_batch_size: 16
eval_batch_size: 16
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 64
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5

学習結果

学習損失	エポック	ステップ	検証損失	正解率	F1値
0.5509	1.0	191	0.3685	0.9086	0.9131
0.4543	2.0	382	0.3113	0.9247	0.9285
0.409	3.0	573	0.2723	0.9372	0.9418
0.3024	4.0	764	0.2786	0.9381	0.9417
0.3103	5.0	955	0.2571	0.9386	0.9425

免責事項

事前学習データセットに含まれるバイアスが、このモデルの結果に引き継がれる可能性があることに留意してください。

作成者

DistilWav2Vec2 XLS-R 成人/子供音声分類器は、Ananto Joyoadikusumo によって学習と評価が行われました。すべての計算と開発はKaggle上で行われました。

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご