🚀 BioLingual模型卡片
BioLingual是一个在人类语言监督下用于生物声学的可迁移模型。它是基于对比语言 - 音频预训练的生物声学音频 - 文本模型,能够解决生物声学领域的相关问题,为该领域的音频处理和分类提供了有效的解决方案。
🚀 快速开始
你可以使用这个模型进行生物声学零样本音频分类,或者在生物声学任务上进行微调。
✨ 主要特性
这是一个基于对比语言 - 音频预训练的生物声学音频 - 文本模型,可用于零样本音频分类和任务微调。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
基础用法
执行零样本音频分类
使用pipeline
:
from datasets import load_dataset
from transformers import pipeline
dataset = load_dataset("ashraq/esc50")
audio = dataset["train"]["audio"][-1]["array"]
audio_classifier = pipeline(task="zero-shot-audio-classification", model="davidrrobinson/BioLingual")
output = audio_classifier(audio, candidate_labels=["Sound of a sperm whale", "Sound of a sea lion"])
print(output)
>>> [{"score": 0.999, "label": "Sound of a dog"}, {"score": 0.001, "label": "Sound of vaccum cleaner"}]
高级用法
运行模型
你还可以使用ClapModel
获取音频和文本嵌入。
在CPU上运行模型:
from datasets import load_dataset
from transformers import ClapModel, ClapProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]
model = ClapModel.from_pretrained("laion/clap-htsat-unfused")
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")
inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt")
audio_embed = model.get_audio_features(**inputs)
在GPU上运行模型:
from datasets import load_dataset
from transformers import ClapModel, ClapProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]
model = ClapModel.from_pretrained("laion/clap-htsat-unfused").to(0)
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")
inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt").to(0)
audio_embed = model.get_audio_features(**inputs)
📚 详细文档
数据集
属性 |
详情 |
数据集 |
davidrrobinson/AnimalSpeak |