wav2vec2-base-finetuned-sentiment-classification-MESD開源模型 - 精準進行西班牙語音頻情感分類

首頁

Wav2vec2 Base Finetuned Sentiment Classification MESD

由somosnlp-hackathon-2022開發

基於wav2vec2-base微調的西班牙語音頻情感分類模型，準確率達93.08%

音頻分類

Transformers

開源協議:Apache-2.0 #西班牙語情感識別 #高精度語音分類 #安防事件檢測

下載量 498

發布時間 : 3/29/2022

模型概述

該模型是在facebook/wav2vec2-base基礎上，使用MESD西班牙語情感數據集微調的語音情感分類器，專門用於識別音頻中的情感狀態。

模型特點

高準確率

在評估集上達到93.08%的分類準確率

西班牙語優化

專門針對西班牙語音頻數據進行微調

輕量級基礎

基於wav2vec2-base架構，平衡性能與效率

模型能力

西班牙語音頻情感識別

語音特徵提取

情感狀態分類

使用案例

健康與福祉

情感感知媒體推薦

通過分析用戶語音情感推薦合適媒體內容，促進心理健康

支持聯合國可持續發展目標SDG 3

公共安全

異常事件檢測

識別鬥毆等突發事件中的異常聲音特徵

支持聯合國可持續發展目標SDG 16

🚀 wav2vec2-base-finetuned-sentiment-mesd-v11

該模型是在 MESD 數據集上對 facebook/wav2vec2-base 進行微調後的版本。它在評估集上取得了以下成果：

損失值：0.3071
準確率：0.9308

🚀 快速開始

此模型主要用於對西班牙語音頻/語音的潛在情感進行分類。

✨ 主要特性

該模型可基於檢測到的情緒/偏好，通過用戶的語音或用戶的聽覺環境，對音頻庫或其他媒體進行展示、推薦和分類。此外，還可以實現一個情緒照明系統，讓用戶的環境更加友好，有助於維護用戶的心理健康和整體福祉。[可持續發展目標 3]
該模型還可以在具有更多類別標籤的數據上進行訓練，以用於檢測爭吵和其他異常情況。可以將音頻分類器集成到監控系統中，以檢測可以通過“聲音”識別的爭吵和其他不安事件。[可持續發展目標 16]

🔧 技術細節

侷限性

用於微調 Wav2Vec2 基礎模型的是開源的 MESD 數據集，其中包含約 1200 條音頻記錄，所有記錄均在專業錄音室錄製，且時長僅為 1 秒。在約 1200 條音頻記錄中，只有 890 條用於訓練。由於這些因素，該模型以及相應的 Gradio 應用程序可能在嘈雜環境或帶有背景音樂或噪音的音頻中表現不佳。此外，該模型在處理“恐懼”類別的音頻記錄時表現較差，經常會對其進行錯誤分類。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0001
訓練批次大小：64
評估批次大小：40
隨機種子：42
梯度累積步數：4
總訓練批次大小：256
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
訓練輪數：100

訓練結果

訓練損失	輪數	步數	驗證損失	準確率
無記錄	0.86	3	1.7516	0.3846
1.9428	1.86	6	1.6859	0.4308
1.9428	2.86	9	1.5575	0.4692
1.9629	3.86	12	1.4160	0.4846
1.5678	4.86	15	1.2979	0.5308
1.5678	5.86	18	1.2294	0.5308
1.4728	6.86	21	1.0703	0.5923
1.4728	7.86	24	0.9926	0.6308
1.2588	8.86	27	0.9202	0.6846
0.991	9.86	30	0.8537	0.6846
0.991	10.86	33	0.8816	0.6769
0.9059	11.86	36	0.7149	0.7769
0.9059	12.86	39	0.7676	0.7462
0.7901	13.86	42	0.6971	0.7538
0.6278	14.86	45	0.6671	0.7923
0.6278	15.86	48	0.5681	0.8231
0.5678	16.86	51	0.5535	0.8154
0.5678	17.86	54	0.5947	0.8077
0.5157	18.86	57	0.6396	0.7692
0.4189	19.86	60	0.5291	0.8077
0.4189	20.86	63	0.4600	0.8538
0.3885	21.86	66	0.5188	0.8308
0.3885	22.86	69	0.5959	0.7923
0.3255	23.86	72	0.5240	0.8462
0.2711	24.86	75	0.5105	0.8385
0.2711	25.86	78	0.5177	0.8231
0.2748	26.86	81	0.3302	0.8923
0.2748	27.86	84	0.4774	0.8538
0.2379	28.86	87	0.4204	0.8769
0.1982	29.86	90	0.6540	0.7692
0.1982	30.86	93	0.5664	0.8308
0.2171	31.86	96	0.5100	0.8462
0.2171	32.86	99	0.3924	0.8769
0.17	33.86	102	0.6002	0.8231
0.1761	34.86	105	0.4364	0.8538
0.1761	35.86	108	0.4166	0.8692
0.1703	36.86	111	0.4374	0.8692
0.1703	37.86	114	0.3872	0.8615
0.1569	38.86	117	0.3941	0.8538
0.1149	39.86	120	0.4004	0.8538
0.1149	40.86	123	0.4360	0.8385
0.1087	41.86	126	0.4387	0.8615
0.1087	42.86	129	0.4352	0.8692
0.1039	43.86	132	0.4018	0.8846
0.099	44.86	135	0.4019	0.8846
0.099	45.86	138	0.4083	0.8923
0.1043	46.86	141	0.4594	0.8692
0.1043	47.86	144	0.4478	0.8769
0.0909	48.86	147	0.5025	0.8538
0.1024	49.86	150	0.5442	0.8692
0.1024	50.86	153	0.3827	0.8769
0.1457	51.86	156	0.6816	0.8231
0.1457	52.86	159	0.3435	0.8923
0.1233	53.86	162	0.4418	0.8769
0.101	54.86	165	0.4629	0.8846
0.101	55.86	168	0.4616	0.8692
0.0969	56.86	171	0.3608	0.8923
0.0969	57.86	174	0.4867	0.8615
0.0981	58.86	177	0.4493	0.8692
0.0642	59.86	180	0.3841	0.8538
0.0642	60.86	183	0.4509	0.8769
0.0824	61.86	186	0.4477	0.8769
0.0824	62.86	189	0.4649	0.8615
0.0675	63.86	192	0.3492	0.9231
0.0839	64.86	195	0.3763	0.8846
0.0839	65.86	198	0.4475	0.8769
0.0677	66.86	201	0.4104	0.8923
0.0677	67.86	204	0.3071	0.9308
0.0626	68.86	207	0.3598	0.9077
0.0412	69.86	210	0.3771	0.8923
0.0412	70.86	213	0.4043	0.8846
0.0562	71.86	216	0.3696	0.9077
0.0562	72.86	219	0.3295	0.9077
0.0447	73.86	222	0.3616	0.8923
0.0727	74.86	225	0.3495	0.8923
0.0727	75.86	228	0.4330	0.8846
0.0576	76.86	231	0.5179	0.8923
0.0576	77.86	234	0.5544	0.8846
0.0489	78.86	237	0.4630	0.9
0.0472	79.86	240	0.4513	0.9
0.0472	80.86	243	0.4207	0.9077
0.0386	81.86	246	0.4118	0.8769
0.0386	82.86	249	0.4764	0.8769
0.0372	83.86	252	0.4167	0.8769
0.0344	84.86	255	0.3744	0.9077
0.0344	85.86	258	0.3712	0.9077
0.0459	86.86	261	0.4249	0.8846
0.0459	87.86	264	0.4687	0.8846
0.0364	88.86	267	0.4194	0.8923
0.0283	89.86	270	0.3963	0.8923
0.0283	90.86	273	0.3982	0.8923
0.0278	91.86	276	0.3838	0.9077
0.0278	92.86	279	0.3731	0.9
0.0352	93.86	282	0.3736	0.9
0.0297	94.86	285	0.3702	0.9
0.0297	95.86	288	0.3521	0.9154
0.0245	96.86	291	0.3522	0.9154
0.0245	97.86	294	0.3600	0.9077
0.0241	98.86	297	0.3636	0.9077
0.0284	99.86	300	0.3639	0.9077