🚀 BioLingual模型卡片
BioLingual是一個在人類語言監督下用於生物聲學的可遷移模型。它是基於對比語言 - 音頻預訓練的生物聲學音頻 - 文本模型,能夠解決生物聲學領域的相關問題,為該領域的音頻處理和分類提供了有效的解決方案。
🚀 快速開始
你可以使用這個模型進行生物聲學零樣本音頻分類,或者在生物聲學任務上進行微調。
✨ 主要特性
這是一個基於對比語言 - 音頻預訓練的生物聲學音頻 - 文本模型,可用於零樣本音頻分類和任務微調。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
執行零樣本音頻分類
使用pipeline
:
from datasets import load_dataset
from transformers import pipeline
dataset = load_dataset("ashraq/esc50")
audio = dataset["train"]["audio"][-1]["array"]
audio_classifier = pipeline(task="zero-shot-audio-classification", model="davidrrobinson/BioLingual")
output = audio_classifier(audio, candidate_labels=["Sound of a sperm whale", "Sound of a sea lion"])
print(output)
>>> [{"score": 0.999, "label": "Sound of a dog"}, {"score": 0.001, "label": "Sound of vaccum cleaner"}]
高級用法
運行模型
你還可以使用ClapModel
獲取音頻和文本嵌入。
在CPU上運行模型:
from datasets import load_dataset
from transformers import ClapModel, ClapProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]
model = ClapModel.from_pretrained("laion/clap-htsat-unfused")
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")
inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt")
audio_embed = model.get_audio_features(**inputs)
在GPU上運行模型:
from datasets import load_dataset
from transformers import ClapModel, ClapProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
audio_sample = librispeech_dummy[0]
model = ClapModel.from_pretrained("laion/clap-htsat-unfused").to(0)
processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")
inputs = processor(audios=audio_sample["audio"]["array"], return_tensors="pt").to(0)
audio_embed = model.get_audio_features(**inputs)
📚 詳細文檔
數據集
屬性 |
詳情 |
數據集 |
davidrrobinson/AnimalSpeak |