モデル概要
モデル特徴
モデル能力
使用事例
🚀 BioCLIPモデルカード
BioCLIPは、生物全体の生物学におけるビジョンモデルとしてCLIPアーキテクチャを使用して構築された、生命の木に関する基礎モデルです。 このモデルは、45万種以上の分類群をカバーする特別に作成されたデータセットであるTreeOfLife-10Mで学習されており、これはこれまでに利用可能な中で最も生物学的に多様性のある機械学習対応データセットです。 多様な細粒度の生物学的分類タスクに対する厳密なベンチマークテストを通じて、BioCLIPは既存のベースラインを絶対値で16%から17%上回る結果を示しました。 内部評価により、BioCLIPが生命の木に沿った階層的表現を学習していることがわかり、これは強力な汎化能力を示しています。
BioCLIPをゼロショットおよびフューショット設定で使用する方法の例については、examples/
ディレクトリを参照してください。
🚀 クイックスタート
BioCLIPは、open_clip
ライブラリを使用して利用できます。
import open_clip
model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms('hf-hub:imageomics/bioclip')
tokenizer = open_clip.get_tokenizer('hf-hub:imageomics/bioclip')
✨ 主な機能
BioCLIPは、生命の木の様々なサブツリーにまたがる種分類タスクで広範に評価されています。ViT-B/16ビジョンエンコーダは、生物学に関するコンピュータビジョンタスクのベースモデルとして推奨されており、同じアーキテクチャの一般ドメインモデルを生物学固有のタスクで上回ることが期待されます。
📦 インストール
BioCLIPを使用するには、open_clip
ライブラリをインストールする必要があります。具体的なインストール手順は、open_clip
の公式リポジトリを参照してください。
📚 ドキュメント
モデルの詳細
モデルの説明
BioCLIPは、OpenAIのCLIPをベースにしています。 このモデルは、OpenAIのViT-B/16チェックポイントからTreeOfLife-10Mで学習され、OpenCLIPのコードを使用しています。 BioCLIPは、標準的なCLIPの目的で学習されており、異なる種だけでなく、生命の木全体にまたがる種を関連付ける階層構造をモデルに理解させることを目指しています。 このように、BioCLIPは45.4万の異なる分類群を個別のクラスとしてではなく、相互に関連する階層の一部として見るため、生物学者が新しい生物や関連する生物を発見するのに役立つ可能性があります。
- 開発者: Samuel Stevens、Jiaman Wu、Matthew J. Thompson、Elizabeth G. Campolongo、Chan Hee Song、David Edward Carlyn、Li Dong、Wasila M. Dahdul、Charles Stewart、Tanya Berger-Wolf、Wei-Lun Chao、およびYu Su
- モデルの種類: Vision Transformer (ViT-B/16)
- ライセンス: MIT
- ファインチューニング元のモデル: OpenAI CLIP、ViT-B/16
このモデルは、コミュニティの利益のためにオープンソース製品として開発されているため、派生製品もオープンソースであることをお願いします。
モデルのソース
用途
直接的な利用
ゼロショット分類の例については、こちらのデモを参照してください。 また、KNNを使用したフューショット設定でも使用できます。ファインチューニングなしのフューショットおよびゼロショット設定の詳細については、我々の論文を参照してください。
バイアス、リスク、および制限
このモデルは元のCLIPモデルから開発されているため、(Radford et al. 2021)で議論されている多くの懸念事項が当てはまります。 懸念を持つユーザーや興味のあるユーザーは、彼らの包括的な倫理声明を読むことをお勧めします。一方、我々はBioCLIPに固有の生物学的な観点に焦点を当てています。
- 学習には特定の地理的情報(例:GPS座標)は含まれていないため、種分類は密猟者に場所を知らせることができないため、動物に直接的な脅威をもたらすことはありません。
- BioCLIPは、画像を階層的な分類学的構造に関連付けることで科学的発見を支援するように設計されています。現在生産されている多くの(もしくはすべての)モデルと同様に、これは生物学者の作業を支援することを目的としており、彼らを置き換えるものではないことを念頭に置くことが重要です。そのため、モデルの予測に過度に依存することは避けてください。
推奨事項
ユーザー(直接的なユーザーと下流のユーザーの両方)は、モデルのリスク、バイアス、および制限について認識しておく必要があります。 さらなる推奨事項については、より多くの情報が必要です。
学習の詳細
コンピューティングインフラストラクチャ
学習は、OSCのAscend HPCクラスター上の2ノードに分散された8台のNVIDIA A100-80GB GPUで、グローバルバッチサイズ32,768で4日間行われました。 Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorに基づくと、これはCO2排出量132.71kg、または平均的なICE車で536km走行した場合と同等です。
学習データ
このモデルは、TreeOfLife-10Mで学習されています。これは、王国から種までのリンネ分類学的ランクに一致する画像のコンパイルです。また、可能な場合は画像の対象の一般名(俗名)も一致させています。詳細については、TreeOfLife-10Mを参照してください。
学習ハイパーパラメータ
- 学習方式: fp16混合精度。
画像は224 x 224ピクセルにリサイズされます。 最大学習率1e4で1000ステップの線形ウォームアップを行い、その後100エポックでコサイン減衰を使用して0に減衰させます。 また、重み減衰率0.2とバッチサイズ32Kを使用しています。
評価
テストデータ
BioCLIPは、以下の10の生物学的に関連するタスクのコレクションでテストされました。
- Meta-Album: 具体的には、Set-0からSet-2のプランクトン、昆虫、昆虫2、PlantNet、菌類、PlantVillage、薬用葉、およびPlantDocデータセットを使用しました(2023年11月の公開/評価時点でSet-3はまだリリースされていませんでした)。
- Birds 525: このデータセットに含まれる2,625枚のテスト画像で評価しました。
- Rare Species: このモデルをテストし、保全のための機械学習コミュニティに貢献する目的で作成した新しいデータセットです。IUCNレッドリストによって絶滅危惧種から野生絶滅種とラベル付けされた400種の種から構成され、種ごとに30枚の画像が含まれています。詳細については、Rare Speciesを参照してください。
これらのデータセットの内容の詳細については、我々の論文の表2および関連セクションを参照してください。
評価指標
モデルの評価にはトップ1およびトップ5の正解率を使用し、学習中の最良のチェックポイントを選択するために検証損失を使用します。
結果
BioCLIPをOpenAIのCLIPおよびOpenCLIPのLAION-2Bチェックポイントと比較しました。 以下は、ベンチマークタスクでのゼロショット分類の結果です。 フューショットの結果については、我々の論文を参照してください。
モデル | 鳥525 | プランクトン | 昆虫 | 昆虫2 | PlantNet | 菌類 | PlantVillage | 薬用葉 | PlantDoc | 希少種 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
CLIP | 49.9 | 3.2 | 9.1 | 9.8 | 58.5 | 10.2 | 5.4 | 15.9 | 26.1 | 31.8 | 21.9 |
OpenCLIP | 54.7 | 2.2 | 6.5 | 9.6 | 50.2 | 5.7 | 8.0 | 12.4 | 25.8 | 29.8 | 20.4 |
BioCLIP | 72.1 | 6.1 | 34.8 | 20.4 | 91.4 | 40.7 | 24.4 | 38.6 | 28.4 | 38.0 | 39.4 |
iNat21 Only | 56.1 | 2.6 | 30.7 | 11.5 | 88.2 | 43.0 | 18.4 | 25.6 | 20.5 | 21.3 | 31.7 |
要約
BioCLIPは、ゼロショットで平均17%の割合で一般ドメインのベースラインを上回っています。
モデルの検証
読者は、我々の論文の4.6節を参照することをお勧めします。 簡単に言うと、BioCLIPは、CLIPやOpenCLIPなどの一般ドメインのベースラインと比較して、分類学的階層により密接に一致する表現を形成しています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
BibTeX:
@software{bioclip2023,
author = {Samuel Stevens and Jiaman Wu and Matthew J. Thompson and Elizabeth G. Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M. Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
doi = {10.57967/hf/1511},
month = nov,
title = {BioCLIP},
version = {v0.1},
year = {2023}
}
また、我々の論文も引用してください。
@inproceedings{stevens2024bioclip,
title = {{B}io{CLIP}: A Vision Foundation Model for the Tree of Life},
author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2024}
}
また、OpenCLIP、iNat21、およびBIOSCAN-1Mも引用することを検討してください。
@software{ilharco_gabriel_2021_5143773,
author={Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig},
title={OpenCLIP},
year={2021},
doi={10.5281/zenodo.5143773},
}
@misc{inat2021,
author={Van Horn, Grant and Mac Aodha, Oisin},
title={iNat Challenge 2021 - FGVC8},
publisher={Kaggle},
year={2021},
url={https://kaggle.com/competitions/inaturalist-2021}
}
@inproceedings{gharaee2023step,
author={Gharaee, Z. and Gong, Z. and Pellegrino, N. and Zarubiieva, I. and Haurum, J. B. and Lowe, S. C. and McKeown, J. T. A. and Ho, C. Y. and McLeod, J. and Wei, Y. C. and Agda, J. and Ratnasingham, S. and Steinke, D. and Chang, A. X. and Taylor, G. W. and Fieguth, P.},
title={A Step Towards Worldwide Biodiversity Assessment: The {BIOSCAN-1M} Insect Dataset},
booktitle={Advances in Neural Information Processing Systems ({NeurIPS}) Datasets \& Benchmarks Track},
year={2023},
}
謝辞
著者は、Josef Uyeda、Jim Balhoff、Dan Rubenstein、Hank Bart、Hilmar Lapp、Sara Beery、およびImageomics InstituteとOSU NLPグループの同僚たちに貴重なフィードバックを提供してくれたことに感謝します。また、BIOSCAN-1MチームとiNaturalistチームがデータを利用可能にし、使いやすくしてくれたこと、およびEOLのJennifer HammackがEOLの画像へのアクセスにおいて多大な助けをしてくれたことにも感謝します。
Imageomics Instituteは、米国国立科学財団のHarnessing the Data Revolution (HDR)プログラムによる助成金 #2118240(Imageomics: A New Frontier of Biological Information Powered by Knowledge-Guided Machine Learning)によって資金提供されています。この資料に表されている意見、調査結果、結論、または推奨事項は、著者のものであり、必ずしも国立科学財団の見解を反映しているわけではありません。
モデルカードの作成者
Elizabeth G. Campolongo、Samuel Stevens、およびJiaman Wu
モデルカードの連絡先









