cnn8rnn-w2vmean-audiocaps-grounding開源音頻定位模型

首頁

Cnn8rnn W2vmean Audiocaps Grounding

由wsntxxn開發

這是一個文本到音頻的定位模型，能夠預測音頻片段中特定聲音事件發生的概率。

文本生成音頻

Transformers

英語開源協議:Apache-2.0 #音頻事件定位 #文本到音頻匹配 #40毫秒高精度

下載量 456

發布時間 : 6/22/2024

模型概述

該模型用於音頻事件定位，給定音頻片段和文本提示，可以預測事件發生的概率，時間分辨率為40毫秒。

模型特點

高時間分辨率

能夠以40毫秒的時間分辨率預測音頻事件發生的概率。

簡單有效架構

採用Cnn8Rnn音頻編碼器和單嵌入層文本編碼器的簡單架構。

弱監督訓練

在AudioCaps數據集上進行弱監督訓練。

模型能力

音頻事件定位

文本到音頻匹配

聲音事件概率預測

使用案例

音頻分析

音頻內容檢索

在長音頻中定位特定聲音事件的發生時間點。

可精確到40毫秒的時間分辨率

多媒體內容分析

分析視頻或音頻內容中特定聲音事件的出現情況。

🚀 Transformers - 文本到音頻定位模型

這是一個文本到音頻的定位模型，它能夠根據音頻片段和描述聲音事件的文本提示，以40毫秒的時間分辨率預測事件發生的概率，為音頻分類等任務提供了強大的支持。

🚀 快速開始

本模型是一個文本到音頻的定位模型。給定一個音頻片段和一個描述聲音事件的文本提示，該模型可以以40毫秒的時間分辨率預測該事件的概率。

它在 AudioCaps 數據集上進行訓練，採用了簡單的架構：Cnn8Rnn 音頻編碼器 + 單層嵌入層文本編碼器。

💻 使用示例

基礎用法

import torch
import torchaudio
from transformers import AutoModel


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModel.from_pretrained(
    "wsntxxn/cnn8rnn-w2vmean-audiocaps-grounding",
    trust_remote_code=True
).to(device)

wav1, sr1 = torchaudio.load("/path/to/file1.wav")
wav1 = torchaudio.functional.resample(wav1, sr1, model.config.sample_rate)
wav1 = wav1.mean(0) if wav1.size(0) > 1 else wav1[0]

wav2, sr2 = torchaudio.load("/path/to/file2.wav")
wav2 = torchaudio.functional.resample(wav2, sr2, model.config.sample_rate)
wav2 = wav2.mean(0) if wav2.size(0) > 1 else wav2[0]

wav_batch = torch.nn.utils.rnn.pad_sequence([wav1, wav2], batch_first=True).to(device)

text = ["a man speaks", "a dog is barking"]

with torch.no_grad():
    output = model(
        audio=wav_batch,
        audio_len=[wav1.size(0), wav2.size(0)],
        text=text
    )
    # output: (2, n_seconds * 25)

📚 詳細文檔

模型引用

如果您在研究中使用了該模型，請引用以下論文：

@article{xu2024towards,
    title={Towards Weakly Supervised Text-to-Audio Grounding},
    author={Xu, Xuenan and Ma, Ziyang and Wu, Mengyue and Yu, Kai},
    journal={arXiv preprint arXiv:2401.02584},
    year={2024}
}