C

Cnn8rnn W2vmean Audiocaps Grounding

Developed by wsntxxn
这是一个文本到音频的定位模型,能够预测音频片段中特定声音事件发生的概率。
Downloads 456
Release Time : 6/22/2024

Model Overview

该模型用于音频事件定位,给定音频片段和文本提示,可以预测事件发生的概率,时间分辨率为40毫秒。

Model Features

高时间分辨率
能够以40毫秒的时间分辨率预测音频事件发生的概率。
简单有效架构
采用Cnn8Rnn音频编码器和单嵌入层文本编码器的简单架构。
弱监督训练
在AudioCaps数据集上进行弱监督训练。

Model Capabilities

音频事件定位
文本到音频匹配
声音事件概率预测

Use Cases

音频分析
音频内容检索
在长音频中定位特定声音事件的发生时间点。
可精确到40毫秒的时间分辨率
多媒体内容分析
分析视频或音频内容中特定声音事件的出现情况。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase