🚀 biosyn - sapbert - ncbi - disease模型卡片
本模型可用于特征提取任务,由韩国大学的数据挖掘与信息系统实验室(Dmis - lab)开发,在生物医学文本挖掘等领域具有一定的应用价值。
🚀 快速开始
使用以下代码即可开始使用该模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
model = AutoModel.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
✨ 主要特性
- 该模型类型为特征提取,可用于相关的生物医学文本特征提取任务。
- 基于BERT模型进行开发,继承了BERT的一些优秀特性。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Dmis - lab(韩国大学数据挖掘与信息系统实验室) |
共享方 |
Hugging Face |
模型类型 |
特征提取 |
相关模型 |
父模型为BERT |
更多信息资源 |
GitHub仓库;关联论文 |
用途
直接用途
此模型可用于特征提取任务。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人 (2021) 和 Bender等人 (2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。关于进一步的建议,还需要更多信息。
训练详情
训练数据
模型创建者在关联论文中指出:
我们使用在英文维基百科和BooksCorpus上预训练了100万步的BERTBASE模型。BioBERT v1.0 (þ PubMed þ PMC) 是在PubMed和PMC语料库上训练了470K步的BioBERT版本。当同时使用PubMed和PMC语料库时,我们发现分别对PubMed和PMC进行200K和270K步的预训练是最优的。我们还使用了BioBERT v1.0的消融版本,它们分别在PubMed上预训练了200K步(BioBERT v1.0 (þ PubMed))和在PMC上预训练了270K步(BioBERT v1.0 (þ PMC))
训练过程
预处理
模型创建者在关联论文中指出:
我们使用Naver Smart Machine Learning (NSML) (Sung等人, 2017) 对BioBERT进行预训练,该工具用于需要在多个GPU上运行的大规模实验。
速度、大小、时间
模型创建者在关联论文中指出:
最大序列长度固定为512,小批量大小设置为192,每次迭代处理98304个单词。
环境影响
可以使用Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。
- 硬件类型:
- 训练:使用八个NVIDIA V100 (32GB) GPU进行训练。
- 微调:使用单个NVIDIA Titan Xp (12GB) GPU在每个任务上对BioBERT进行微调。
- 使用时长:更多信息待补充。
- 云服务提供商:更多信息待补充。
- 计算区域:更多信息待补充。
- 碳排放:更多信息待补充。
引用
BibTeX:
@article{lee2019biobert,
title={BioBERT: a pre-trained biomedical language representation model for biomedical text mining},
author={Lee, Jinhyuk and Yoon, Wonjin and Kim, Sungdong and Kim, Donghyeon and Kim, Sunkyu and So, Chan Ho and Kang, Jaewoo},
journal={arXiv preprint arXiv:1901.08746},
year={2019}
}
更多信息
若在使用BioBERT时遇到问题或需要帮助,请提交GitHub问题。若要进行与BioBERT相关的沟通,请联系Jinhyuk Lee(lee.jnhk (at) gmail.com
)或Wonjin Yoon(wonjin.info (at) gmail.com
)。
模型卡片作者
Dmis - lab(韩国大学数据挖掘与信息系统实验室)与Ezi Ozoani和Hugging Face团队合作完成。