Model Overview
Model Features
Model Capabilities
Use Cases
🚀 BioCLIP模型卡片
BioCLIP是一个用于生命之树的基础模型,它基于CLIP架构构建,可作为通用生物生物学的视觉模型。该模型在专门创建的TreeOfLife - 10M数据集上进行训练,此数据集涵盖超过450K个分类单元,是迄今为止生物多样性最丰富的、可用于机器学习的数据集。通过对各种细粒度生物分类任务的严格基准测试,BioCLIP在绝对性能上始终比现有基线高出16%至17%。通过内在评估,我们发现BioCLIP学习到了与生命之树对齐的分层表示,这证明了它具有强大的泛化潜力。
🚀 快速开始
BioCLIP可以与open_clip
库一起使用:
import open_clip
model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms('hf-hub:imageomics/bioclip')
tokenizer = open_clip.get_tokenizer('hf-hub:imageomics/bioclip')
✨ 主要特性
- 基于OpenAI的CLIP架构,使用OpenCLIP的代码进行训练。
- 在专门创建的TreeOfLife - 10M数据集上训练,该数据集具有高度的生物多样性。
- 学习到与生命之树对齐的分层表示,具有强大的泛化潜力。
- 在多种生物分类任务的零样本分类中,平均比通用领域基线高出17%。
📦 安装指南
文档未提及安装相关内容,可参考open_clip
库的安装方式使用BioCLIP。
💻 使用示例
基础用法
import open_clip
model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms('hf-hub:imageomics/bioclip')
tokenizer = open_clip.get_tokenizer('hf-hub:imageomics/bioclip')
高级用法
请参考examples/
目录,了解如何在零样本和少样本设置中使用BioCLIP。更多详细信息可查看论文。
📚 详细文档
模型详情
模型描述
BioCLIP基于OpenAI的CLIP。我们从OpenAI的ViT - B/16检查点开始,使用OpenCLIP的代码,在TreeOfLife - 10M数据集上训练该模型。BioCLIP使用标准的CLIP目标进行训练,使模型不仅能理解不同物种,还能理解生命之树中物种之间的层次结构。这样,BioCLIP有可能帮助生物学家发现新的和相关的生物,因为它将454K个不同的分类单元视为相互关联的层次结构的一部分,而不是不同的类别。
- 开发者:Samuel Stevens、Jiaman Wu、Matthew J. Thompson、Elizabeth G. Campolongo、Chan Hee Song、David Edward Carlyn、Li Dong、Wasila M. Dahdul、Charles Stewart、Tanya Berger - Wolf、Wei - Lun Chao和Yu Su
- 模型类型:视觉变换器(ViT - B/16)
- 许可证:MIT
- 微调基础模型:OpenAI CLIP,ViT - B/16
该模型作为开源产品开发,旨在造福社区,因此我们要求任何衍生产品也采用开源方式。
模型来源
- 代码仓库:BioCLIP
- 论文:BioCLIP: A Vision Foundation Model for the Tree of Life (arXiv)
- 演示:BioCLIP Demo
用途
BioCLIP已在生命之树的许多不同子树的物种分类任务中进行了广泛评估。建议将ViT - B/16视觉编码器作为任何生物学计算机视觉任务的基础模型;我们预计它在特定生物学任务上的表现将优于具有相同架构的通用领域模型。
直接使用
可查看此处的演示,了解零样本分类的示例。它也可以在少样本设置中与KNN一起使用;有关少样本和零样本设置(无需微调)的详细信息,请参阅我们的论文。
偏差、风险和局限性
该模型基于原始的CLIP模型开发,因此(Radford et al. 2021)中讨论的许多问题同样适用。我们鼓励关注或好奇的用户阅读他们详尽的伦理声明,而我们将重点关注BioCLIP独特的生物学视角。
- 训练数据中不包含特定的地理信息(例如GPS坐标),因此物种分类不会通过帮助偷猎者而对动物构成直接威胁,因为它无法告知偷猎者动物的位置。
- BioCLIP旨在通过将图像与分层分类结构关联来辅助科学发现。与目前许多(如果不是全部)正在使用的模型一样,重要的是要记住它旨在协助生物学家开展工作,而不是取代他们。因此,我们提醒不要过度依赖模型预测。
建议
用户(直接用户和下游用户)应该了解模型的风险、偏差和局限性。如需进一步建议,还需要更多信息。
训练详情
计算基础设施
训练在OSC的Ascend HPC集群上进行,使用8个NVIDIA A100 - 80GB GPU,分布在2个节点上,全局批量大小为32,768,训练时长为4天。
根据Lacoste et al. (2019)中提出的机器学习影响计算器,这相当于排放132.71千克的CO₂当量,或者相当于一辆普通内燃机汽车行驶536公里的排放量。
训练数据
该模型在TreeOfLife - 10M数据集上进行训练,该数据集是将图像与从界到种的林奈分类等级相匹配的集合。在可能的情况下,图像还与图像主体的通用(通俗)名称相匹配。更多信息请参阅我们的数据集TreeOfLife - 10M。
训练超参数
- 训练机制:fp16混合精度。
我们将图像调整为224 x 224像素。使用最大学习率1e4,进行1000步线性预热,然后在100个周期内使用余弦衰减至0。同时使用0.2的权重衰减和32K的批量大小。
评估
测试数据
我们在以下10个与生物学相关的任务集合上测试了BioCLIP:
- Meta - Album:具体来说,我们使用了Set - 0到Set - 2中的浮游生物、昆虫、昆虫2、PlantNet、真菌、PlantVillage、药用叶和PlantDoc数据集(截至我们发布/评估时(2023年11月),Set - 3尚未发布)。
- Birds 525:我们在该数据集提供的2,625张测试图像上进行了评估。
- Rare Species:这是我们为测试该模型并为保护机器学习社区做出贡献而整理的新数据集。它包含400个被IUCN红色名录标记为近危到野外灭绝的物种,每个物种有30张图像。更多信息请参阅我们的数据集Rare Species。
有关这些数据集内容的更多信息,请参阅我们的论文的表2及相关章节。
评估指标
我们使用top - 1和top - 5准确率来评估模型,并使用验证损失来选择训练中表现最佳的检查点。
评估结果
我们将BioCLIP与OpenAI的CLIP和OpenCLIP的LAION - 2B检查点进行了比较。以下是我们基准任务的零样本分类结果。少样本结果请参阅我们的论文。
模型 | 鸟类525 | 浮游生物 | 昆虫 | 昆虫2 | PlantNet | 真菌 | PlantVillage | 药用叶 | PlantDoc | 珍稀物种 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
CLIP | 49.9 | 3.2 | 9.1 | 9.8 | 58.5 | 10.2 | 5.4 | 15.9 | 26.1 | 31.8 | 21.9 |
OpenCLIP | 54.7 | 2.2 | 6.5 | 9.6 | 50.2 | 5.7 | 8.0 | 12.4 | 25.8 | 29.8 | 20.4 |
BioCLIP | 72.1 | 6.1 | 34.8 | 20.4 | 91.4 | 40.7 | 24.4 | 38.6 | 28.4 | 38.0 | 39.4 |
仅iNat21 | 56.1 | 2.6 | 30.7 | 11.5 | 88.2 | 43.0 | 18.4 | 25.6 | 20.5 | 21.3 | 31.7 |
总结
BioCLIP在零样本分类中平均比通用领域基线高出17%。
模型分析
我们鼓励读者查看我们的论文的第4.6节。简而言之,与CLIP或OpenCLIP等通用领域基线相比,BioCLIP形成的表示更符合分类层次结构。
🔧 技术细节
文档未提供足够详细的技术实现细节。
📄 许可证
该模型使用MIT许可证。
📚 引用
BibTeX:
@software{bioclip2023,
author = {Samuel Stevens and Jiaman Wu and Matthew J. Thompson and Elizabeth G. Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M. Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
doi = {10.57967/hf/1511},
month = nov,
title = {BioCLIP},
version = {v0.1},
year = {2023}
}
请同时引用我们的论文:
@inproceedings{stevens2024bioclip,
title = {{B}io{CLIP}: A Vision Foundation Model for the Tree of Life},
author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2024}
}
请考虑同时引用OpenCLIP、iNat21和BIOSCAN - 1M:
@software{ilharco_gabriel_2021_5143773,
author={Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig},
title={OpenCLIP},
year={2021},
doi={10.5281/zenodo.5143773},
}
@misc{inat2021,
author={Van Horn, Grant and Mac Aodha, Oisin},
title={iNat Challenge 2021 - FGVC8},
publisher={Kaggle},
year={2021},
url={https://kaggle.com/competitions/inaturalist-2021}
}
@inproceedings{gharaee2023step,
author={Gharaee, Z. and Gong, Z. and Pellegrino, N. and Zarubiieva, I. and Haurum, J. B. and Lowe, S. C. and McKeown, J. T. A. and Ho, C. Y. and McLeod, J. and Wei, Y. C. and Agda, J. and Ratnasingham, S. and Steinke, D. and Chang, A. X. and Taylor, G. W. and Fieguth, P.},
title={A Step Towards Worldwide Biodiversity Assessment: The {BIOSCAN-1M} Insect Dataset},
booktitle={Advances in Neural Information Processing Systems ({NeurIPS}) Datasets \& Benchmarks Track},
year={2023},
}
🙏 致谢
作者感谢Josef Uyeda、Jim Balhoff、Dan Rubenstein、Hank Bart、Hilmar Lapp、Sara Beery以及Imageomics Institute和OSU NLP团队的同事提供的宝贵反馈。我们还感谢BIOSCAN - 1M团队和iNaturalist团队提供易于使用的数据,以及EOL的Jennifer Hammack在获取EOL图像方面提供的宝贵帮助。
Imageomics Institute由美国国家科学基金会的“利用数据革命”(HDR)计划资助,资助编号为#2118240(Imageomics: A New Frontier of Biological Information Powered by Knowledge - Guided Machine Learning)。本材料中表达的任何观点、发现、结论或建议均为作者个人观点,不一定反映美国国家科学基金会的观点。
📝 模型卡片作者
Elizabeth G. Campolongo、Samuel Stevens和Jiaman Wu
📧 模型卡片联系方式









