Urdu Audio Emotions

U

Urdu Audio Emotions

Talhaによって開発

facebook/wav2vec2-large-xlsr-53をファインチューニングしたウルドゥー語オーディオ感情分類モデル。怒り、喜び、平静、悲しみの4つの感情認識をサポート

オープンソースライセンス:Apache-2.0 #ウルドゥー語感情認識 #高精度オーディオ分類 #wav2vec2ファインチューニング

ダウンロード数 66

リリース時間 : 7/2/2022

モデル概要

このモデルはウルドゥー語オーディオデータ向けの感情分類モデルで、オーディオ中の怒り、喜び、平静、悲しみの4つの感情状態を正確に識別できます。

モデル特徴

高精度

評価データセットで97.5%の分類精度を達成

多感情認識

怒り、喜び、平静、悲しみの4つの感情状態を識別可能

転移学習

事前学習済みwav2vec2-large-xlsr-53モデルをファインチューニング

モデル能力

ウルドゥー語オーディオ処理

感情分類

音声特徴抽出

使用事例

感情分析

カスタマーサービス音声分析

カスタマーサービス通話中の顧客感情状態を分析

顧客の怒り感情を正確に識別し、サービス品質を向上

メンタルヘルス評価

音声分析を通じてユーザーの心理状態を評価

うつ傾向のある音声特徴を識別

🚀 results

このモデルは、facebook/wav2vec2-large-xlsr-53 を None データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1638
正解率: 0.975

✨ 主な機能

このモデルは、ウルドゥー語の音声を分析し、以下のカテゴリに分類します。

怒り
喜び
中立
悲しみ

📦 インストール

READMEにインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習と評価データ

データセットは以下のURLから入手できます。 https://www.kaggle.com/datasets/kingabzpro/urdu-emotion-dataset

学習手順

学習コードは以下のURLから入手できます。 https://www.kaggle.com/code/chtalhaanwar/urdu-emotions-hf

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-05
学習バッチサイズ: 32
評価バッチサイズ: 32
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
エポック数: 50
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	正解率
1.3838	1.0	10	1.3907	0.225
1.3732	2.0	20	1.3872	0.2125
1.3354	3.0	30	1.3116	0.6625
1.2689	4.0	40	1.1820	0.6375
1.1179	5.0	50	1.0075	0.7
0.9962	6.0	60	0.8707	0.7125
0.8842	7.0	70	0.7485	0.7625
0.786	8.0	80	0.6326	0.8
0.6757	9.0	90	0.5995	0.8
0.6104	10.0	100	0.4835	0.825
0.5821	11.0	110	0.3886	0.9
0.4721	12.0	120	0.3935	0.8625
0.3976	13.0	130	0.3020	0.925
0.4483	14.0	140	0.3171	0.9
0.2665	15.0	150	0.3016	0.9125
0.2119	16.0	160	0.2722	0.925
0.3376	17.0	170	0.3163	0.8875
0.1518	18.0	180	0.2681	0.9125
0.1559	19.0	190	0.3074	0.925
0.1031	20.0	200	0.3526	0.8875
0.1557	21.0	210	0.2254	0.9375
0.0846	22.0	220	0.2410	0.9375
0.0733	23.0	230	0.2369	0.925
0.0964	24.0	240	0.2273	0.9375
0.0574	25.0	250	0.2066	0.95
0.1113	26.0	260	0.2941	0.9125
0.1313	27.0	270	0.2715	0.925
0.0851	28.0	280	0.1725	0.9625
0.0402	29.0	290	0.2221	0.95
0.1075	30.0	300	0.2199	0.9625
0.0418	31.0	310	0.1699	0.95
0.1869	32.0	320	0.2287	0.9625
0.0637	33.0	330	0.3230	0.9125
0.0483	34.0	340	0.1602	0.975
0.0891	35.0	350	0.1615	0.975
0.0359	36.0	360	0.1571	0.975
0.1006	37.0	370	0.1809	0.9625
0.0417	38.0	380	0.1923	0.9625
0.0346	39.0	390	0.2035	0.9625
0.0417	40.0	400	0.1737	0.9625
0.0396	41.0	410	0.1833	0.9625
0.0202	42.0	420	0.1946	0.9625
0.0137	43.0	430	0.1785	0.9625
0.0214	44.0	440	0.1841	0.9625
0.0304	45.0	450	0.1690	0.9625
0.0199	46.0	460	0.1646	0.975
0.0122	47.0	470	0.1622	0.975
0.0324	48.0	480	0.1615	0.975
0.0269	49.0	490	0.1625	0.975
0.0245	50.0	500	0.1638	0.975

フレームワークバージョン

Transformers 4.18.0
Pytorch 1.11.0
Datasets 2.1.0
Tokenizers 0.12.1

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase