V

Voc2vec

由alkiskoudounas開發
voc2vec是專為非語言人類數據設計的基礎模型,基於wav2vec 2.0框架構建,預訓練數據集涵蓋約125小時非語言音頻。
下載量 223
發布時間 : 2/6/2025

模型概述

voc2vec是一個用於非語言人類音頻數據的基礎模型,主要用於音頻分類任務,特別適用於嬰兒啼哭等非語言發聲的分類和分析。

模型特點

非語言發聲分類
專門針對非語言人類音頻數據設計,如嬰兒啼哭、笑聲等。
多數據集預訓練
使用10個不同數據集的集合進行預訓練,涵蓋約125小時的非語言音頻。
多種變體模型
提供基於不同預訓練數據集的模型變體,包括AudioSet、LibriSpeech和HuBERT。

模型能力

非語言發聲分類
音頻特徵提取
嬰兒啼哭識別

使用案例

醫療健康
嬰兒啼哭分析
用於分析嬰兒啼哭,幫助識別嬰兒的需求或健康狀態。
在Donate a Cry數據集上表現良好。
語音研究
非語言發聲研究
用於研究人類非語言發聲的特徵和模式。
在多個非語言發聲數據集上進行了評估。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase