cnn8rnn-w2vmean-audiocaps-groundingオープンソース音声接地モデル - 特定の音声イベントの確率を予測する

ホーム

Cnn8rnn W2vmean Audiocaps Grounding

wsntxxnによって開発

これはテキストから音声への位置特定モデルで、音声クリップ内の特定の音声イベント発生確率を予測できます。

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:Apache-2.0 #音声イベント位置特定 #テキストから音声へのマッチング #40ミリ秒の高精度

ダウンロード数 456

リリース時間 : 6/22/2024

モデル概要

このモデルは音声イベント位置特定に使用され、音声クリップとテキストプロンプトが与えられると、40ミリ秒の時間分解能でイベント発生確率を予測します。

モデル特徴

高時間分解能

40ミリ秒の時間分解能で音声イベント発生確率を予測可能。

シンプルで効果的なアーキテクチャ

Cnn8Rnn音声エンコーダと単一埋め込み層テキストエンコーダのシンプルなアーキテクチャを採用。

弱教師あり学習

AudioCapsデータセットで弱教師あり学習を実施。

モデル能力

音声イベント位置特定

テキストから音声マッチング

音声イベント確率予測

使用事例

音声分析

音声コンテンツ検索

長時間音声内で特定音声イベントの発生タイミングを位置特定。

40ミリ秒の時間分解能まで正確に可能

マルチメディアコンテンツ分析

動画や音声コンテンツ内の特定音声イベントの出現状況を分析。

🚀 テキスト・オーディオ接地モデル

このモデルは、オーディオクリップと音声イベントを記述するテキストプロンプトを入力として、40msの時間解像度でイベントの確率を予測するテキスト・オーディオ接地モデルです。

🚀 クイックスタート

このモデルは、オーディオクリップと音声イベントを記述するテキストプロンプトを入力として、イベントの確率を40msの時間解像度で予測します。このモデルはAudioCapsで学習されており、Cnn8Rnnオーディオエンコーダ + 単一埋め込み層テキストエンコーダというシンプルなアーキテクチャを持っています。

💻 使用例

基本的な使用法

import torch
import torchaudio
from transformers import AutoModel


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModel.from_pretrained(
    "wsntxxn/cnn8rnn-w2vmean-audiocaps-grounding",
    trust_remote_code=True
).to(device)

wav1, sr1 = torchaudio.load("/path/to/file1.wav")
wav1 = torchaudio.functional.resample(wav1, sr1, model.config.sample_rate)
wav1 = wav1.mean(0) if wav1.size(0) > 1 else wav1[0]

wav2, sr2 = torchaudio.load("/path/to/file2.wav")
wav2 = torchaudio.functional.resample(wav2, sr2, model.config.sample_rate)
wav2 = wav2.mean(0) if wav2.size(0) > 1 else wav2[0]

wav_batch = torch.nn.utils.rnn.pad_sequence([wav1, wav2], batch_first=True).to(device)

text = ["a man speaks", "a dog is barking"]

with torch.no_grad():
    output = model(
        audio=wav_batch,
        audio_len=[wav1.size(0), wav2.size(0)],
        text=text
    )
    # output: (2, n_seconds * 25)

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 引用

@article{xu2024towards,
    title={Towards Weakly Supervised Text-to-Audio Grounding},
    author={Xu, Xuenan and Ma, Ziyang and Wu, Mengyue and Yu, Kai},
    journal={arXiv preprint arXiv:2401.02584},
    year={2024}
}