BioLingual开源生物声学模型 - 免费实现零样本分类及任务微调

首页

Biolingual

由 davidrrobinson 开发

基于对比语言-音频预训练的生物声学音频-文本模型，支持生物声学零样本分类和任务微调

音频分类

Transformers

#生物声学分类 #零样本学习 #音频-文本对比

下载量 483

发布时间 : 7/24/2023

模型简介

BioLingual是一个基于人类语言监督的可迁移生物声学模型，通过对比语言-音频预训练实现生物声学音频与文本的关联

模型特点

对比语言-音频预训练

通过对比学习实现音频与文本的跨模态关联

零样本分类能力

无需微调即可对新的音频类别进行分类

生物声学专用

专门针对动物声音等生物声学数据优化

模型能力

生物声学音频分类

音频-文本嵌入提取

零样本学习

跨模态检索

使用案例

野生动物监测

动物声音识别

识别野外录音中的特定动物种类

示例中能准确识别狗的声音

生态研究

生物多样性评估

通过声音分析评估特定区域的生物多样性

🚀 BioLingual模型卡片

BioLingual是一个在人类语言监督下用于生物声学的可迁移模型。它是基于对比语言 - 音频预训练的生物声学音频 - 文本模型，能够解决生物声学领域的相关问题，为该领域的音频处理和分类提供了有效的解决方案。

🚀 快速开始

你可以使用这个模型进行生物声学零样本音频分类，或者在生物声学任务上进行微调。

✨ 主要特性

这是一个基于对比语言 - 音频预训练的生物声学音频 - 文本模型，可用于零样本音频分类和任务微调。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

基础用法

执行零样本音频分类

使用pipeline：

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("ashraq/esc50")
audio = dataset["train"]["audio"][-1]["array"]

audio_classifier = pipeline(task="zero-shot-audio-classification", model="davidrrobinson/BioLingual")
output = audio_classifier(audio, candidate_labels=["Sound of a sperm whale", "Sound of a sea lion"])
print(output)
>>> [{"score": 0.999, "label": "Sound of a dog"}, {"score": 0.001, "label": "Sound of vaccum cleaner"}]

高级用法

运行模型

你还可以使用ClapModel获取音频和文本嵌入。

在CPU上运行模型：

from datasets import load_dataset
from transformers import ClapModel, ClapProcessor

librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]

model = ClapModel.from_pretrained("laion/clap-htsat-unfused")
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")

inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt")
audio_embed = model.get_audio_features(**inputs)

在GPU上运行模型：

from datasets import load_dataset
from transformers import ClapModel, ClapProcessor

librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]

model = ClapModel.from_pretrained("laion/clap-htsat-unfused").to(0)
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")

inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt").to(0)
audio_embed = model.get_audio_features(**inputs)