voc2vec-as-pt開源模型 - 處理非語言人類數據的實用基礎工具

首頁

Voc2vec As Pt

由alkiskoudounas開發

voc2vec是一個專門為非語言人類數據設計的基礎模型，基於wav2vec 2.0框架構建。

音頻分類

Transformers

英語開源協議:Apache-2.0 #非語言音頻分類 #嬰兒啼哭檢測 #多數據集預訓練

下載量 31

發布時間 : 2/6/2025

模型概述

該模型用於非語言音頻分類任務，特別是嬰兒啼哭等非語言發聲的識別。

模型特點

非語言音頻處理

專門針對非語言人類聲音（如嬰兒啼哭）優化的模型

多數據集預訓練

在包含約125小時非語言音頻的10個數據集上預訓練

基於AudioSet繼續訓練

從一個最初在AudioSet數據集上訓練的模型繼續預訓練

模型能力

非語言音頻分類

嬰兒啼哭識別

音頻特徵提取

使用案例

醫療健康

嬰兒啼哭分析

用於識別和分析嬰兒的不同啼哭類型

語音研究

非語言發聲研究

用於研究人類非語言發聲的特徵和模式

🚀 voc2vec-as-pt

voc2vec是專門為非語言人類數據設計的基礎模型。它利用了涵蓋約125小時非語言音頻的10個數據集，預訓練了一個類似Wav2Vec2的模型，為非語言音頻處理提供了強大的支持。

🚀 快速開始

你可以直接按照以下方式使用該模型：

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec-as-pt")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec-as-pt")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

✨ 主要特性

針對性設計：專門為非語言人類數據打造，在非語言音頻處理方面具有獨特優勢。
豐富數據集訓練：使用了10個數據集進行預訓練，涵蓋約125小時的非語言音頻，模型泛化能力強。

📚 詳細文檔

模型描述

Voc2vec基於wav2vec 2.0框架構建，並遵循其預訓練設置。預訓練數據集包括：AudioSet（發聲）、FreeSound（嬰兒聲音）、HumanVoiceDataset、NNIME、NonSpeech7K、ReCANVo、SingingDatabase、TUT（嬰兒聲音）、VocalSketch、VocalSound。該模型從一個最初在Audioset數據集上訓練的模型繼續進行預訓練。

任務和數據集描述

我們在六個數據集上評估了voc2vec-as-pt：ASVP-ESD、ASPV-ESD（嬰兒）、CNVVE、非語言發聲數據集、Donate a Cry、VIVAE。

下表報告了上述六個數據集上未加權平均召回率（UAR）和F1宏觀指標的平均性能。

模型	架構	預訓練數據集	UAR	F1宏觀指標
voc2vec	wav2vec 2.0	Voc125	.612±.212	.580±.230
voc2vec-as-pt	wav2vec 2.0	AudioSet + Voc125	.603±.183	.574±.194
voc2vec-ls-pt	wav2vec 2.0	LibriSpeech + Voc125	.661±.206	.636±.223
voc2vec-hubert-ls-pt	HuBERT	LibriSpeech + Voc125	.696±.189	.678±.200

可用模型

模型	描述	鏈接
voc2vec	在125小時非語言音頻上預訓練的模型。	🔗 模型
voc2vec-as-pt	從一個最初在AudioSet數據集上訓練的類似wav2vec2的模型繼續預訓練。	🔗 模型
voc2vec-ls-pt	從一個最初在LibriSpeech數據集上訓練的類似wav2vec2的模型繼續預訓練。	🔗 模型
voc2vec-hubert-ls-pt	從一個最初在LibriSpeech數據集上訓練的類似hubert的模型繼續預訓練。	🔗 模型

💻 使用示例

基礎用法

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec-as-pt")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec-as-pt")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

📄 許可證

本項目採用Apache-2.0許可證。

📖 BibTeX引用和引用信息

@INPROCEEDINGS{koudounas2025icassp,
  author={Koudounas, Alkis and La Quatra, Moreno and Siniscalchi, Sabato Marco and Baralis, Elena},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={voc2vec: A Foundation Model for Non-Verbal Vocalization}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Pediatrics;Accuracy;Foundation models;Benchmark testing;Signal processing;Data models;Acoustics;Speech processing;Nonverbal vocalization;Representation Learning;Self-Supervised Models;Pre-trained Models},
  doi={10.1109/ICASSP49660.2025.10890672}}