BioLingual開源生物聲學模型 - 免費實現零樣本分類及任務微調

首頁

Biolingual

由davidrrobinson開發

基於對比語言-音頻預訓練的生物聲學音頻-文本模型，支持生物聲學零樣本分類和任務微調

音頻分類

Transformers

#生物聲學分類 #零樣本學習 #音頻-文本對比

下載量 483

發布時間 : 7/24/2023

模型概述

BioLingual是一個基於人類語言監督的可遷移生物聲學模型，通過對比語言-音頻預訓練實現生物聲學音頻與文本的關聯

模型特點

對比語言-音頻預訓練

通過對比學習實現音頻與文本的跨模態關聯

零樣本分類能力

無需微調即可對新的音頻類別進行分類

生物聲學專用

專門針對動物聲音等生物聲學數據優化

模型能力

生物聲學音頻分類

音頻-文本嵌入提取

零樣本學習

跨模態檢索

使用案例

野生動物監測

動物聲音識別

識別野外錄音中的特定動物種類

示例中能準確識別狗的聲音

生態研究

生物多樣性評估

通過聲音分析評估特定區域的生物多樣性

🚀 BioLingual模型卡片

BioLingual是一個在人類語言監督下用於生物聲學的可遷移模型。它是基於對比語言 - 音頻預訓練的生物聲學音頻 - 文本模型，能夠解決生物聲學領域的相關問題，為該領域的音頻處理和分類提供了有效的解決方案。

🚀 快速開始

你可以使用這個模型進行生物聲學零樣本音頻分類，或者在生物聲學任務上進行微調。

✨ 主要特性

這是一個基於對比語言 - 音頻預訓練的生物聲學音頻 - 文本模型，可用於零樣本音頻分類和任務微調。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

執行零樣本音頻分類

使用pipeline：

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("ashraq/esc50")
audio = dataset["train"]["audio"][-1]["array"]

audio_classifier = pipeline(task="zero-shot-audio-classification", model="davidrrobinson/BioLingual")
output = audio_classifier(audio, candidate_labels=["Sound of a sperm whale", "Sound of a sea lion"])
print(output)
>>> [{"score": 0.999, "label": "Sound of a dog"}, {"score": 0.001, "label": "Sound of vaccum cleaner"}]

高級用法

運行模型

你還可以使用ClapModel獲取音頻和文本嵌入。

在CPU上運行模型：

from datasets import load_dataset
from transformers import ClapModel, ClapProcessor

librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]

model = ClapModel.from_pretrained("laion/clap-htsat-unfused")
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")

inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt")
audio_embed = model.get_audio_features(**inputs)

在GPU上運行模型：

from datasets import load_dataset
from transformers import ClapModel, ClapProcessor

librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]

model = ClapModel.from_pretrained("laion/clap-htsat-unfused").to(0)
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")

inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt").to(0)
audio_embed = model.get_audio_features(**inputs)