voc2vec開源非語言數據基礎模型 - 處理約125小時非語言音頻數據

首頁

Voc2vec

由alkiskoudounas開發

voc2vec是專為非語言人類數據設計的基礎模型，基於wav2vec 2.0框架構建，預訓練數據集涵蓋約125小時非語言音頻。

音頻分類

Transformers

英語開源協議:Apache-2.0 #非語言音頻分類 #嬰兒啼哭檢測 #自監督預訓練

下載量 223

發布時間 : 2/6/2025

模型概述

voc2vec是一個用於非語言人類音頻數據的基礎模型，主要用於音頻分類任務，特別適用於嬰兒啼哭等非語言發聲的分類和分析。

模型特點

非語言發聲分類

專門針對非語言人類音頻數據設計，如嬰兒啼哭、笑聲等。

多數據集預訓練

使用10個不同數據集的集合進行預訓練，涵蓋約125小時的非語言音頻。

多種變體模型

提供基於不同預訓練數據集的模型變體，包括AudioSet、LibriSpeech和HuBERT。

模型能力

非語言發聲分類

音頻特徵提取

嬰兒啼哭識別

使用案例

醫療健康

嬰兒啼哭分析

用於分析嬰兒啼哭，幫助識別嬰兒的需求或健康狀態。

在Donate a Cry數據集上表現良好。

語音研究

非語言發聲研究

用於研究人類非語言發聲的特徵和模式。

在多個非語言發聲數據集上進行了評估。

🚀 voc2vec

voc2vec是專門為非語言人類數據設計的基礎模型。它利用了約125小時的非語言音頻數據，為非語言人類數據處理提供了強大的支持。

✨ 主要特性

專為非語言人類數據設計，具有針對性和專業性。
基於wav2vec 2.0框架構建，沿用其預訓練設置。
在多個數據集上進行評估，展現出良好的性能。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

📚 詳細文檔

模型描述

Voc2vec基於wav2vec 2.0框架構建，並沿用其預訓練設置。預訓練數據集包括：AudioSet（發聲）、FreeSound（嬰兒）、HumanVoiceDataset、NNIME、NonSpeech7K、ReCANVo、SingingDatabase、TUT（嬰兒）、VocalSketch、VocalSound。

任務和數據集描述

我們在六個數據集上評估了voc2vec：ASVP - ESD、ASPV - ESD（嬰兒）、CNVVE、NonVerbal Vocalization Dataset、Donate a Cry、VIVAE。

下表報告了上述六個數據集在未加權平均召回率（UAR）和F1宏觀指標方面的平均性能。

模型	架構	預訓練數據集	未加權平均召回率（UAR）	F1宏觀指標
voc2vec	wav2vec 2.0	Voc125	.612±.212	.580±.230
voc2vec - as - pt	wav2vec 2.0	AudioSet + Voc125	.603±.183	.574±.194
voc2vec - ls - pt	wav2vec 2.0	LibriSpeech + Voc125	.661±.206	.636±.223
voc2vec - hubert - ls - pt	HuBERT	LibriSpeech + Voc125	.696±.189	.678±.200

可用模型

模型	描述	鏈接
voc2vec	在125小時的非語言音頻上進行預訓練的模型。	🔗 模型
voc2vec - as - pt	從一個最初在AudioSet數據集上訓練的類似wav2vec2的模型繼續預訓練。	[🔗 模型](https://huggingface.co/alkiskoudounas/voc2vec - as - pt)
voc2vec - ls - pt	從一個最初在LibriSpeech數據集上訓練的類似wav2vec2的模型繼續預訓練。	[🔗 模型](https://huggingface.co/alkiskoudounas/voc2vec - ls - pt)
voc2vec - hubert - ls - pt	從一個最初在LibriSpeech數據集上訓練的類似HuBERT的模型繼續預訓練。	[🔗 模型](https://huggingface.co/alkiskoudounas/voc2vec - hubert - ls - pt)

🔧 技術細節

文檔未提供具體的技術實現細節，故跳過此章節。

📄 許可證

本項目採用Apache-2.0許可證。

📖 BibTeX引用

@INPROCEEDINGS{koudounas2025icassp,
  author={Koudounas, Alkis and La Quatra, Moreno and Siniscalchi, Sabato Marco and Baralis, Elena},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={voc2vec: A Foundation Model for Non-Verbal Vocalization}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Pediatrics;Accuracy;Foundation models;Benchmark testing;Signal processing;Data models;Acoustics;Speech processing;Nonverbal vocalization;Representation Learning;Self-Supervised Models;Pre-trained Models},
  doi={10.1109/ICASSP49660.2025.10890672}}