🚀 BioTrove-CLIP模型卡片
BioTrove-CLIP是一套全新的用於生物多樣性的視覺語言基礎模型。這些CLIP風格的基礎模型在BioTrove-Train數據集上進行訓練,該數據集是一個大規模數據集,包含3.3萬種動植物的4000萬張圖像。這些模型在零樣本圖像分類任務上進行評估。
🚀 快速開始
BioTrove-CLIP模型可直接用於零樣本圖像分類和微調任務。要獲取上述模型的檢查點,請前往Files and versions
選項卡下載權重。這些權重文件對應特定的模型,分別為:
- BioTrove-CLIP-O:
biotroveclip-vit-b-16-from-openai-epoch-40.pt
- BioTrove-CLIP-B:
biotroveclip-vit-b-16-from-bioclip-epoch-8.pt
- BioTrove-CLIP-M:
biotroveclip-vit-l-14-from-metaclip-epoch-12.pt
✨ 主要特性
📦 安裝指南
預運行
克隆Github倉庫並導航到BioTrove/model_validation
目錄後,建議將所有項目依賴安裝到conda容器中,使用命令pip install -r requirements.txt
。此外,在VLHub中執行命令之前,請將BioTrove/model_validation/src
添加到PYTHONPATH中:
export PYTHONPATH="$PYTHONPATH:$PWD/src";
💻 使用示例
基礎用法
一個基本的BioTrove-CLIP模型評估命令示例如下。此示例將在ImageNet驗證集上評估一個CLIP-ResNet50檢查點(其權重位於--resume
標誌指定的路徑),並將結果報告給Weights and Biases:
python src/training/main.py --batch-size=32 --workers=8 --imagenet-val "/imagenet/val/" --model="resnet50" --zeroshot-frequency=1 --image-size=224 --resume "/PATH/TO/WEIGHTS.pth" --report-to wandb
📚 詳細文檔
模型描述
BioTrove-CLIP基於OpenAI的CLIP模型。模型在BioTrove-Train數據集上進行訓練,具體配置如下:
- BioTrove-CLIP-O:使用OpenCLIP的檢查點初始化ViT-B/16骨幹網絡,訓練40個週期。
- BioTrove-CLIP-B:使用BioCLIP的檢查點初始化ViT-B/16骨幹網絡,訓練8個週期。
- BioTrove-CLIP-M:使用MetaCLIP的檢查點初始化ViT-L/14骨幹網絡,訓練12個週期。
模型訓練
可查看Github上的Model Training部分,瞭解如何在零樣本圖像分類任務中使用BioTrove-CLIP模型的示例。
使用BioCLIP / OpenCLIP代碼庫的修改版本訓練三個模型。每個模型在Arboretum-40M數據集上,使用2個節點、8xH100 GPU,在紐約大學的Greene高性能計算集群上進行訓練。所有用於復現結果的代碼已在Github頁面上公開。
在訓練前使用Ray優化超參數,標準訓練參數如下:
--dataset-type webdataset
--pretrained openai
--text_type random
--dataset-resampled
--warmup 5000
--batch-size 4096
--accum-freq 1
--epochs 40
--workers 8
--model ViT-B-16
--lr 0.0005
--wd 0.0004
--precision bf16
--beta1 0.98
--beta2 0.99
--eps 1.0e-6
--local-loss
--gather-with-grad
--ddp-static-graph
--grad-checkpointing
如需瞭解更多訓練過程和每個超參數的詳細文檔,建議分別參考OpenCLIP和BioCLIP的文檔。
模型驗證
為驗證訓練模型的零樣本準確率並與其他基準進行比較,使用了VLHub倉庫,並進行了一些輕微修改。
訓練鏈接
模型侷限性
所有BioTrove-CLIP
模型都在具有挑戰性的CONFOUNDING-SPECIES基準上進行了評估,但所有模型的表現都達到或低於隨機水平。這可能是後續工作的一個有趣方向,有助於進一步擴展模型的能力。
一般來說,在網絡抓取數據上訓練的模型在使用通用名稱時表現更好,而在專業數據集上訓練的模型在使用科學名稱時表現更好。此外,在網絡抓取數據上訓練的模型在最高分類級別(界)的分類中表現出色,而在較低分類級別(目和種),模型開始受益於BioTrove-Train (40M)和Tree-of-Life-10M等專業數據集。從實際角度來看,BioTrove-CLIP
在物種級別具有很高的準確性,並且可以從較低分類級別確定性地推導出較高分類級別。
解決這些侷限性將進一步提高BioTrove-CLIP
等模型在實際生物多樣性監測任務中的適用性。
致謝
這項工作得到了美國國家科學基金會(NSF)和美國農業部國家食品與農業研究所(USDA-NIFA)支持的人工智能研究機構計劃的資助,項目名稱為AI Institute: for Resilient Agriculture,資助編號為2021 - 67021 - 35329。同時,也部分得到了NSF的CPS Frontier資助(編號CNS - 1954556)。此外,感謝紐約大學信息技術部高性能計算資源、服務和工作人員的專業支持。
引用
如果您發現這些模型和數據集在您的研究中有用,請考慮引用我們的論文:
@misc{yang2024arboretumlargemultimodaldataset,
title={Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity},
author={Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab,
Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh,
Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian},
year={2024},
eprint={2406.17720},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.17720},
}
如需瞭解更多詳細信息並訪問Arboretum數據集,請訪問項目頁面。