模型概述
模型特點
模型能力
使用案例
🚀 BioCLIP模型卡片
BioCLIP是一個用於生命之樹的基礎模型,它基於CLIP架構構建,可作為通用生物生物學的視覺模型。該模型在專門創建的TreeOfLife - 10M數據集上進行訓練,此數據集涵蓋超過450K個分類單元,是迄今為止生物多樣性最豐富的、可用於機器學習的數據集。通過對各種細粒度生物分類任務的嚴格基準測試,BioCLIP在絕對性能上始終比現有基線高出16%至17%。通過內在評估,我們發現BioCLIP學習到了與生命之樹對齊的分層表示,這證明了它具有強大的泛化潛力。
🚀 快速開始
BioCLIP可以與open_clip
庫一起使用:
import open_clip
model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms('hf-hub:imageomics/bioclip')
tokenizer = open_clip.get_tokenizer('hf-hub:imageomics/bioclip')
✨ 主要特性
- 基於OpenAI的CLIP架構,使用OpenCLIP的代碼進行訓練。
- 在專門創建的TreeOfLife - 10M數據集上訓練,該數據集具有高度的生物多樣性。
- 學習到與生命之樹對齊的分層表示,具有強大的泛化潛力。
- 在多種生物分類任務的零樣本分類中,平均比通用領域基線高出17%。
📦 安裝指南
文檔未提及安裝相關內容,可參考open_clip
庫的安裝方式使用BioCLIP。
💻 使用示例
基礎用法
import open_clip
model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms('hf-hub:imageomics/bioclip')
tokenizer = open_clip.get_tokenizer('hf-hub:imageomics/bioclip')
高級用法
請參考examples/
目錄,瞭解如何在零樣本和少樣本設置中使用BioCLIP。更多詳細信息可查看論文。
📚 詳細文檔
模型詳情
模型描述
BioCLIP基於OpenAI的CLIP。我們從OpenAI的ViT - B/16檢查點開始,使用OpenCLIP的代碼,在TreeOfLife - 10M數據集上訓練該模型。BioCLIP使用標準的CLIP目標進行訓練,使模型不僅能理解不同物種,還能理解生命之樹中物種之間的層次結構。這樣,BioCLIP有可能幫助生物學家發現新的和相關的生物,因為它將454K個不同的分類單元視為相互關聯的層次結構的一部分,而不是不同的類別。
- 開發者:Samuel Stevens、Jiaman Wu、Matthew J. Thompson、Elizabeth G. Campolongo、Chan Hee Song、David Edward Carlyn、Li Dong、Wasila M. Dahdul、Charles Stewart、Tanya Berger - Wolf、Wei - Lun Chao和Yu Su
- 模型類型:視覺變換器(ViT - B/16)
- 許可證:MIT
- 微調基礎模型:OpenAI CLIP,ViT - B/16
該模型作為開源產品開發,旨在造福社區,因此我們要求任何衍生產品也採用開源方式。
模型來源
- 代碼倉庫:BioCLIP
- 論文:BioCLIP: A Vision Foundation Model for the Tree of Life (arXiv)
- 演示:BioCLIP Demo
用途
BioCLIP已在生命之樹的許多不同子樹的物種分類任務中進行了廣泛評估。建議將ViT - B/16視覺編碼器作為任何生物學計算機視覺任務的基礎模型;我們預計它在特定生物學任務上的表現將優於具有相同架構的通用領域模型。
直接使用
可查看此處的演示,瞭解零樣本分類的示例。它也可以在少樣本設置中與KNN一起使用;有關少樣本和零樣本設置(無需微調)的詳細信息,請參閱我們的論文。
偏差、風險和侷限性
該模型基於原始的CLIP模型開發,因此(Radford et al. 2021)中討論的許多問題同樣適用。我們鼓勵關注或好奇的用戶閱讀他們詳盡的倫理聲明,而我們將重點關注BioCLIP獨特的生物學視角。
- 訓練數據中不包含特定的地理信息(例如GPS座標),因此物種分類不會通過幫助偷獵者而對動物構成直接威脅,因為它無法告知偷獵者動物的位置。
- BioCLIP旨在通過將圖像與分層分類結構關聯來輔助科學發現。與目前許多(如果不是全部)正在使用的模型一樣,重要的是要記住它旨在協助生物學家開展工作,而不是取代他們。因此,我們提醒不要過度依賴模型預測。
建議
用戶(直接用戶和下游用戶)應該瞭解模型的風險、偏差和侷限性。如需進一步建議,還需要更多信息。
訓練詳情
計算基礎設施
訓練在OSC的Ascend HPC集群上進行,使用8個NVIDIA A100 - 80GB GPU,分佈在2個節點上,全局批量大小為32,768,訓練時長為4天。
根據Lacoste et al. (2019)中提出的機器學習影響計算器,這相當於排放132.71千克的CO₂當量,或者相當於一輛普通內燃機汽車行駛536公里的排放量。
訓練數據
該模型在TreeOfLife - 10M數據集上進行訓練,該數據集是將圖像與從界到種的林奈分類等級相匹配的集合。在可能的情況下,圖像還與圖像主體的通用(通俗)名稱相匹配。更多信息請參閱我們的數據集TreeOfLife - 10M。
訓練超參數
- 訓練機制:fp16混合精度。
我們將圖像調整為224 x 224像素。使用最大學習率1e4,進行1000步線性預熱,然後在100個週期內使用餘弦衰減至0。同時使用0.2的權重衰減和32K的批量大小。
評估
測試數據
我們在以下10個與生物學相關的任務集合上測試了BioCLIP:
- Meta - Album:具體來說,我們使用了Set - 0到Set - 2中的浮游生物、昆蟲、昆蟲2、PlantNet、真菌、PlantVillage、藥用葉和PlantDoc數據集(截至我們發佈/評估時(2023年11月),Set - 3尚未發佈)。
- Birds 525:我們在該數據集提供的2,625張測試圖像上進行了評估。
- Rare Species:這是我們為測試該模型併為保護機器學習社區做出貢獻而整理的新數據集。它包含400個被IUCN紅色名錄標記為近危到野外滅絕的物種,每個物種有30張圖像。更多信息請參閱我們的數據集Rare Species。
有關這些數據集內容的更多信息,請參閱我們的論文的表2及相關章節。
評估指標
我們使用top - 1和top - 5準確率來評估模型,並使用驗證損失來選擇訓練中表現最佳的檢查點。
評估結果
我們將BioCLIP與OpenAI的CLIP和OpenCLIP的LAION - 2B檢查點進行了比較。以下是我們基準任務的零樣本分類結果。少樣本結果請參閱我們的論文。
模型 | 鳥類525 | 浮游生物 | 昆蟲 | 昆蟲2 | PlantNet | 真菌 | PlantVillage | 藥用葉 | PlantDoc | 珍稀物種 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
CLIP | 49.9 | 3.2 | 9.1 | 9.8 | 58.5 | 10.2 | 5.4 | 15.9 | 26.1 | 31.8 | 21.9 |
OpenCLIP | 54.7 | 2.2 | 6.5 | 9.6 | 50.2 | 5.7 | 8.0 | 12.4 | 25.8 | 29.8 | 20.4 |
BioCLIP | 72.1 | 6.1 | 34.8 | 20.4 | 91.4 | 40.7 | 24.4 | 38.6 | 28.4 | 38.0 | 39.4 |
僅iNat21 | 56.1 | 2.6 | 30.7 | 11.5 | 88.2 | 43.0 | 18.4 | 25.6 | 20.5 | 21.3 | 31.7 |
總結
BioCLIP在零樣本分類中平均比通用領域基線高出17%。
模型分析
我們鼓勵讀者查看我們的論文的第4.6節。簡而言之,與CLIP或OpenCLIP等通用領域基線相比,BioCLIP形成的表示更符合分類層次結構。
🔧 技術細節
文檔未提供足夠詳細的技術實現細節。
📄 許可證
該模型使用MIT許可證。
📚 引用
BibTeX:
@software{bioclip2023,
author = {Samuel Stevens and Jiaman Wu and Matthew J. Thompson and Elizabeth G. Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M. Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
doi = {10.57967/hf/1511},
month = nov,
title = {BioCLIP},
version = {v0.1},
year = {2023}
}
請同時引用我們的論文:
@inproceedings{stevens2024bioclip,
title = {{B}io{CLIP}: A Vision Foundation Model for the Tree of Life},
author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2024}
}
請考慮同時引用OpenCLIP、iNat21和BIOSCAN - 1M:
@software{ilharco_gabriel_2021_5143773,
author={Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig},
title={OpenCLIP},
year={2021},
doi={10.5281/zenodo.5143773},
}
@misc{inat2021,
author={Van Horn, Grant and Mac Aodha, Oisin},
title={iNat Challenge 2021 - FGVC8},
publisher={Kaggle},
year={2021},
url={https://kaggle.com/competitions/inaturalist-2021}
}
@inproceedings{gharaee2023step,
author={Gharaee, Z. and Gong, Z. and Pellegrino, N. and Zarubiieva, I. and Haurum, J. B. and Lowe, S. C. and McKeown, J. T. A. and Ho, C. Y. and McLeod, J. and Wei, Y. C. and Agda, J. and Ratnasingham, S. and Steinke, D. and Chang, A. X. and Taylor, G. W. and Fieguth, P.},
title={A Step Towards Worldwide Biodiversity Assessment: The {BIOSCAN-1M} Insect Dataset},
booktitle={Advances in Neural Information Processing Systems ({NeurIPS}) Datasets \& Benchmarks Track},
year={2023},
}
🙏 致謝
作者感謝Josef Uyeda、Jim Balhoff、Dan Rubenstein、Hank Bart、Hilmar Lapp、Sara Beery以及Imageomics Institute和OSU NLP團隊的同事提供的寶貴反饋。我們還感謝BIOSCAN - 1M團隊和iNaturalist團隊提供易於使用的數據,以及EOL的Jennifer Hammack在獲取EOL圖像方面提供的寶貴幫助。
Imageomics Institute由美國國家科學基金會的“利用數據革命”(HDR)計劃資助,資助編號為#2118240(Imageomics: A New Frontier of Biological Information Powered by Knowledge - Guided Machine Learning)。本材料中表達的任何觀點、發現、結論或建議均為作者個人觀點,不一定反映美國國家科學基金會的觀點。
📝 模型卡片作者
Elizabeth G. Campolongo、Samuel Stevens和Jiaman Wu
📧 模型卡片聯繫方式









