🚀 biosyn - sapbert - ncbi - disease模型卡片
本模型可用於特徵提取任務,由韓國大學的數據挖掘與信息系統實驗室(Dmis - lab)開發,在生物醫學文本挖掘等領域具有一定的應用價值。
🚀 快速開始
使用以下代碼即可開始使用該模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
model = AutoModel.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
✨ 主要特性
- 該模型類型為特徵提取,可用於相關的生物醫學文本特徵提取任務。
- 基於BERT模型進行開發,繼承了BERT的一些優秀特性。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Dmis - lab(韓國大學數據挖掘與信息系統實驗室) |
共享方 |
Hugging Face |
模型類型 |
特徵提取 |
相關模型 |
父模型為BERT |
更多信息資源 |
GitHub倉庫;關聯論文 |
用途
直接用途
此模型可用於特徵提取任務。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人 (2021) 和 Bender等人 (2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議,還需要更多信息。
訓練詳情
訓練數據
模型創建者在關聯論文中指出:
我們使用在英文維基百科和BooksCorpus上預訓練了100萬步的BERTBASE模型。BioBERT v1.0 (þ PubMed þ PMC) 是在PubMed和PMC語料庫上訓練了470K步的BioBERT版本。當同時使用PubMed和PMC語料庫時,我們發現分別對PubMed和PMC進行200K和270K步的預訓練是最優的。我們還使用了BioBERT v1.0的消融版本,它們分別在PubMed上預訓練了200K步(BioBERT v1.0 (þ PubMed))和在PMC上預訓練了270K步(BioBERT v1.0 (þ PMC))
訓練過程
預處理
模型創建者在關聯論文中指出:
我們使用Naver Smart Machine Learning (NSML) (Sung等人, 2017) 對BioBERT進行預訓練,該工具用於需要在多個GPU上運行的大規模實驗。
速度、大小、時間
模型創建者在關聯論文中指出:
最大序列長度固定為512,小批量大小設置為192,每次迭代處理98304個單詞。
環境影響
可以使用Lacoste等人 (2019) 中提出的機器學習影響計算器來估算碳排放。
- 硬件類型:
- 訓練:使用八個NVIDIA V100 (32GB) GPU進行訓練。
- 微調:使用單個NVIDIA Titan Xp (12GB) GPU在每個任務上對BioBERT進行微調。
- 使用時長:更多信息待補充。
- 雲服務提供商:更多信息待補充。
- 計算區域:更多信息待補充。
- 碳排放:更多信息待補充。
引用
BibTeX:
@article{lee2019biobert,
title={BioBERT: a pre-trained biomedical language representation model for biomedical text mining},
author={Lee, Jinhyuk and Yoon, Wonjin and Kim, Sungdong and Kim, Donghyeon and Kim, Sunkyu and So, Chan Ho and Kang, Jaewoo},
journal={arXiv preprint arXiv:1901.08746},
year={2019}
}
更多信息
若在使用BioBERT時遇到問題或需要幫助,請提交GitHub問題。若要進行與BioBERT相關的溝通,請聯繫Jinhyuk Lee(lee.jnhk (at) gmail.com
)或Wonjin Yoon(wonjin.info (at) gmail.com
)。
模型卡片作者
Dmis - lab(韓國大學數據挖掘與信息系統實驗室)與Ezi Ozoani和Hugging Face團隊合作完成。