voc2vecオープンソース非言語データ基礎モデル - 約125時間の非言語音声データを処理

ホーム

Voc2vec

alkiskoudounasによって開発

voc2vecは非言語人間データ専用に設計された基礎モデルで、wav2vec 2.0フレームワークを基に構築されており、事前学習データセットには約125時間の非言語音声が含まれています。

音声分類

Transformers

英語オープンソースライセンス:Apache-2.0 #非言語音声分類 #乳児の泣き声検出 #自己教師あり事前学習

ダウンロード数 223

リリース時間 : 2/6/2025

モデル概要

voc2vecは非言語人間音声データ用の基礎モデルで、主に音声分類タスクに使用され、特に乳児の泣き声などの非言語発声の分類と分析に適しています。

モデル特徴

非言語発声分類

乳児の泣き声、笑い声などの非言語人間音声データに特化して設計されています。

複数データセット事前学習

10の異なるデータセットの集合を使用して事前学習を行い、約125時間の非言語音声をカバーしています。

複数バリエーションモデル

AudioSet、LibriSpeech、HuBERTなど、異なる事前学習データセットに基づくモデルバリエーションを提供しています。

モデル能力

非言語発声分類

音響特徴抽出

乳児の泣き声認識

使用事例

医療健康

乳児の泣き声分析

乳児の泣き声を分析し、乳児の要求や健康状態を識別するのに役立ちます。

Donate a Cryデータセットで良好な性能を示しました。

音声研究

非言語発声研究

人間の非言語発声の特徴やパターンを研究するために使用されます。

複数の非言語発声データセットで評価されました。

🚀 voc2vec

voc2vecは、非言語的な人間データに特化した基礎モデルです。このモデルは、約125時間に及ぶ非言語音声を含む10のデータセットを用いて、Wav2Vec2に似たモデルを事前学習しています。

✨ 主な機能

非言語的な人間データに特化した事前学習モデル。
複数の非言語音声データセットを用いて事前学習。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

📚 ドキュメント

モデルの説明

Voc2vecは、wav2vec 2.0フレームワークをベースに構築され、その事前学習設定に従っています。事前学習に使用されるデータセットには、AudioSet (vocalization)、FreeSound (babies)、HumanVoiceDataset、NNIME、NonSpeech7K、ReCANVo、SingingDatabase、TUT (babies)、VocalSketch、VocalSoundが含まれます。

タスクとデータセットの説明

voc2vecは、ASVP - ESD、ASPV - ESD (babies)、CNVVE、NonVerbal Vocalization Dataset、Donate a Cry、VIVAEの6つのデータセットで評価されています。

以下の表は、上記6つのデータセットにおけるUnweighted Average Recall (UAR) とF1 Macroの平均性能を示しています。

モデル	アーキテクチャ	事前学習データセット	UAR	F1 Macro
voc2vec	wav2vec 2.0	Voc125	.612±.212	.580±.230
voc2vec - as - pt	wav2vec 2.0	AudioSet + Voc125	.603±.183	.574±.194
voc2vec - ls - pt	wav2vec 2.0	LibriSpeech + Voc125	.661±.206	.636±.223
voc2vec - hubert - ls - pt	HuBERT	LibriSpeech + Voc125	.696±.189	.678±.200

利用可能なモデル

モデル	説明	リンク
voc2vec	125時間の非言語音声で事前学習されたモデル。	🔗 モデル
voc2vec - as - pt	AudioSetデータセットで最初に学習されたwav2vec2に似たモデルからの継続事前学習。	[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - as - pt)
voc2vec - ls - pt	LibriSpeechデータセットで最初に学習されたwav2vec2に似たモデルからの継続事前学習。	[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - ls - pt)
voc2vec - hubert - ls - pt	LibriSpeechデータセットで最初に学習されたhubertに似たモデルからの継続事前学習。	[🔗 モデル](https://huggingface.co/alkiskoudounas/voc2vec - hubert - ls - pt)

🔧 技術詳細

このセクションには具体的な技術説明があまりないため、スキップします。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@INPROCEEDINGS{koudounas2025icassp,
  author={Koudounas, Alkis and La Quatra, Moreno and Siniscalchi, Sabato Marco and Baralis, Elena},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={voc2vec: A Foundation Model for Non-Verbal Vocalization}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Pediatrics;Accuracy;Foundation models;Benchmark testing;Signal processing;Data models;Acoustics;Speech processing;Nonverbal vocalization;Representation Learning;Self-Supervised Models;Pre-trained Models},
  doi={10.1109/ICASSP49660.2025.10890672}}