🚀 voc2vec
voc2vecは、非言語的な人間データに特化した基礎モデルです。このモデルは、約125時間に及ぶ非言語音声を含む10のデータセットを用いて、Wav2Vec2に似たモデルを事前学習しています。
✨ 主な機能
- 非言語的な人間データに特化した事前学習モデル。
- 複数の非言語音声データセットを用いて事前学習。
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec")
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")
logits = model(**inputs).logits
📚 ドキュメント
モデルの説明
Voc2vecは、wav2vec 2.0フレームワークをベースに構築され、その事前学習設定に従っています。事前学習に使用されるデータセットには、AudioSet (vocalization)、FreeSound (babies)、HumanVoiceDataset、NNIME、NonSpeech7K、ReCANVo、SingingDatabase、TUT (babies)、VocalSketch、VocalSoundが含まれます。
タスクとデータセットの説明
voc2vecは、ASVP - ESD、ASPV - ESD (babies)、CNVVE、NonVerbal Vocalization Dataset、Donate a Cry、VIVAEの6つのデータセットで評価されています。
以下の表は、上記6つのデータセットにおけるUnweighted Average Recall (UAR) とF1 Macroの平均性能を示しています。
モデル |
アーキテクチャ |
事前学習データセット |
UAR |
F1 Macro |
voc2vec |
wav2vec 2.0 |
Voc125 |
.612±.212 |
.580±.230 |
voc2vec - as - pt |
wav2vec 2.0 |
AudioSet + Voc125 |
.603±.183 |
.574±.194 |
voc2vec - ls - pt |
wav2vec 2.0 |
LibriSpeech + Voc125 |
.661±.206 |
.636±.223 |
voc2vec - hubert - ls - pt |
HuBERT |
LibriSpeech + Voc125 |
.696±.189 |
.678±.200 |
利用可能なモデル
モデル |
説明 |
リンク |
voc2vec |
125時間の非言語音声で事前学習されたモデル。 |
🔗 モデル |
voc2vec - as - pt |
AudioSetデータセットで最初に学習されたwav2vec2に似たモデルからの継続事前学習。 |
[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - as - pt) |
voc2vec - ls - pt |
LibriSpeechデータセットで最初に学習されたwav2vec2に似たモデルからの継続事前学習。 |
[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - ls - pt) |
voc2vec - hubert - ls - pt |
LibriSpeechデータセットで最初に学習されたhubertに似たモデルからの継続事前学習。 |
[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - hubert - ls - pt) |
🔧 技術詳細
このセクションには具体的な技術説明があまりないため、スキップします。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
BibTeXエントリと引用情報
@INPROCEEDINGS{koudounas2025icassp,
author={Koudounas, Alkis and La Quatra, Moreno and Siniscalchi, Sabato Marco and Baralis, Elena},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={voc2vec: A Foundation Model for Non-Verbal Vocalization},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Pediatrics;Accuracy;Foundation models;Benchmark testing;Signal processing;Data models;Acoustics;Speech processing;Nonverbal vocalization;Representation Learning;Self-Supervised Models;Pre-trained Models},
doi={10.1109/ICASSP49660.2025.10890672}}