🚀 BioTrove-CLIPのモデルカード
BioTrove-CLIPは、生物多様性のための新しいビジョン言語基礎モデルのセットです。これらのCLIPスタイルの基礎モデルは、植物と動物の33K種
の4000万枚
の画像からなる大規模データセットであるBioTrove-Trainで学習されました。これらのモデルは、ゼロショット画像分類タスクで評価されています。
✨ 主な機能
BioTrove-CLIPは、生物多様性に特化したビジョン言語基礎モデルです。以下のような機能を備えています。
- 大規模な生物画像データセットで学習されたモデルで、ゼロショット画像分類タスクに対応。
- 複数のベースモデルから微調整され、高い精度を実現。
📦 インストール
このモデルを使用するには、以下の手順に従ってください。
- Githubリポジトリをクローンし、
BioTrove/model_validation
ディレクトリに移動します。
- プロジェクトの要件をcondaコンテナにインストールします。
pip install -r requirements.txt
- VLHubでコマンドを実行する前に、
BioTrove/model_validation/src
をPYTHONPATHに追加します。
export PYTHONPATH="$PYTHONPATH:$PWD/src";
💻 使用例
基本的な使用法
BioTrove-CLIPモデルの基本的な評価コマンドは以下のように実行できます。この例では、--resume
フラグで指定されたパスにあるCLIP-ResNet50チェックポイントの重みをImageNet検証セットで評価し、結果をWeights and Biasesに報告します。
python src/training/main.py --batch-size=32 --workers=8 --imagenet-val "/imagenet/val/" --model="resnet50" --zeroshot-frequency=1 --image-size=224 --resume "/PATH/TO/WEIGHTS.pth" --report-to wandb
📚 ドキュメント
モデルの詳細
モデルの学習
これらのモデルは、BioCLIP / OpenCLIPのコードベースの修正版を使用して学習されました。各モデルは、NYUのGreene高性能コンピューティングクラスタ上で、2ノード、8xH100 GPUでArboretum-40Mデータセットを使用して学習されました。結果を再現するために必要なすべてのコードは、Githubページで公開されています。
学習前にRayを使用してハイパーパラメータを最適化します。標準的な学習パラメータは以下の通りです。
--dataset-type webdataset
--pretrained openai
--text_type random
--dataset-resampled
--warmup 5000
--batch-size 4096
--accum-freq 1
--epochs 40
--workers 8
--model ViT-B-16
--lr 0.0005
--wd 0.0004
--precision bf16
--beta1 0.98
--beta2 0.99
--eps 1.0e-6
--local-loss
--gather-with-grad
--ddp-static-graph
--grad-checkpointing
学習プロセスと各ハイパーパラメータの重要性についての詳細なドキュメントについては、それぞれOpenCLIPとBioCLIPのドキュメントを参照することをお勧めします。
モデルの検証
学習したモデルのゼロショット精度を検証し、他のベンチマークと比較するために、VLHubリポジトリを若干修正して使用しています。
学習リンク
モデルの制限
すべてのBioTrove-CLIP
モデルは、難しいCONFOUNDING-SPECIESベンチマークで評価されました。しかし、すべてのモデルはランダムな確率と同じかそれ以下の性能を示しました。これは、後続の研究やモデルの能力拡張の興味深い方向性となる可能性があります。
一般的に、ウェブスクレイピングデータで学習されたモデルは一般名での分類でより良い性能を示し、専門家向けデータセットで学習されたモデルは学名を使用した場合により良い性能を示します。また、ウェブスクレイピングデータで学習されたモデルは、最上位の分類レベル(界)での分類に優れていますが、下位の分類レベル(目と種)ではBioTrove-Train (40M)やTree-of-Life-10Mのような専門家向けデータセットから恩恵を受け始めます。実用的な観点から、BioTrove-CLIP
は種レベルで非常に高い精度を持ち、上位の分類群は下位の分類群から決定的に導き出すことができます。
これらの制限を克服することで、BioTrove-CLIP
のようなモデルの実世界での生物多様性モニタリングタスクへの適用性がさらに向上します。
謝辞
この研究は、NSFとUSDA-NIFAによって支援されたAI研究インスティテュートプログラムのAI Institute: for Resilient Agriculture(Award No. 2021-67021-35329)によって支援されています。また、一部はNSFのCPS Frontier grant CNS-1954556によって支援されています。さらに、NYU ITのHigh Performance Computingのリソース、サービス、およびスタッフの専門知識の支援に感謝しています。
引用
もしこれらのモデルやデータセットがあなたの研究に役立つ場合は、以下の論文を引用してください。
@misc{yang2024arboretumlargemultimodaldataset,
title={Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity},
author={Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab,
Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh,
Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian},
year={2024},
eprint={2406.17720},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.17720},
}
詳細やArboretumデータセットへのアクセスについては、プロジェクトページをご覧ください。