C

Cnn8rnn W2vmean Audiocaps Grounding

由wsntxxn開發
這是一個文本到音頻的定位模型,能夠預測音頻片段中特定聲音事件發生的概率。
下載量 456
發布時間 : 6/22/2024

模型概述

該模型用於音頻事件定位,給定音頻片段和文本提示,可以預測事件發生的概率,時間分辨率為40毫秒。

模型特點

高時間分辨率
能夠以40毫秒的時間分辨率預測音頻事件發生的概率。
簡單有效架構
採用Cnn8Rnn音頻編碼器和單嵌入層文本編碼器的簡單架構。
弱監督訓練
在AudioCaps數據集上進行弱監督訓練。

模型能力

音頻事件定位
文本到音頻匹配
聲音事件概率預測

使用案例

音頻分析
音頻內容檢索
在長音頻中定位特定聲音事件的發生時間點。
可精確到40毫秒的時間分辨率
多媒體內容分析
分析視頻或音頻內容中特定聲音事件的出現情況。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase