🚀 biosyn - sapbert - ncbi - diseaseモデルカード
このモデルは特徴抽出タスクに使用でき、韓国大学のデータマイニングと情報システム研究室(Dmis - lab)によって開発され、生物医学テキストマイニングなどの分野で一定の応用価値を持っています。
🚀 クイックスタート
以下のコードを使用すると、このモデルをすぐに使い始めることができます。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
model = AutoModel.from_pretrained("dmis-lab/biosyn-sapbert-ncbi-disease")
✨ 主な機能
- このモデルは特徴抽出型で、関連する生物医学テキストの特徴抽出タスクに使用できます。
- BERTモデルをベースに開発されており、BERTのいくつかの優れた特性を引き継いでいます。
📚 ドキュメント
モデル詳細
属性 |
詳細 |
開発者 |
Dmis - lab(韓国大学データマイニングと情報システム研究室) |
共有元 |
Hugging Face |
モデルタイプ |
特徴抽出 |
関連モデル |
親モデルはBERT |
詳細情報リソース |
GitHubリポジトリ;関連論文 |
用途
直接的な用途
このモデルは特徴抽出タスクに使用できます。
適用範囲外の使用
このモデルは、人々に敵対的または排斥的な環境を意図的に作り出すために使用されるべきではありません。
バイアス、リスク、制限事項
多くの研究で、言語モデルのバイアスと公平性の問題が検討されています(例えば、Shengら (2021) および Benderら (2021) を参照)。このモデルが生成する予測には、保護されたカテゴリ、アイデンティティの特徴、および敏感な社会的および職業的グループに対する不快で有害なステレオタイプが含まれる可能性があります。
提案
ユーザー(直接ユーザーおよび下流ユーザーを含む)は、このモデルのリスク、バイアス、および制限事項を理解すべきです。さらなる提案については、より多くの情報が必要です。
学習詳細
学習データ
モデル作成者は関連論文で述べています:
私たちは、英文のウィキペディアとBooksCorpusで100万ステップ事前学習したBERTBASEモデルを使用しました。BioBERT v1.0 (þ PubMed þ PMC) は、PubMedとPMCコーパスで470Kステップ学習したBioBERTのバージョンです。PubMedとPMCコーパスの両方を使用する場合、PubMedとPMCでそれぞれ200Kと270Kステップの事前学習が最適であることがわかりました。また、BioBERT v1.0のアブレーションバージョンも使用しました。これらは、それぞれPubMedで200Kステップ(BioBERT v1.0 (þ PubMed))、PMCで270Kステップ(BioBERT v1.0 (þ PMC))事前学習されています。
学習過程
前処理
モデル作成者は関連論文で述べています:
私たちは、複数のGPUで実行する必要がある大規模な実験に使用するNaver Smart Machine Learning (NSML) (Sungら, 2017) を使用して、BioBERTを事前学習しました。
速度、サイズ、時間
モデル作成者は関連論文で述べています:
最大シーケンス長は512に固定され、ミニバッチサイズは192に設定され、各反復で98304語が処理されます。
環境への影響
Lacosteら (2019) で提案された機械学習影響計算機を使用して、炭素排出量を推定することができます。
- ハードウェアタイプ:
- 学習:8つのNVIDIA V100 (32GB) GPUを使用して学習します。
- 微調整:各タスクでBioBERTを微調整するために、単一のNVIDIA Titan Xp (12GB) GPUを使用します。
- 使用時間:詳細情報は後日提供予定です。
- クラウドサービスプロバイダー:詳細情報は後日提供予定です。
- 計算エリア:詳細情報は後日提供予定です。
- 炭素排出量:詳細情報は後日提供予定です。
引用
BibTeX:
@article{lee2019biobert,
title={BioBERT: a pre-trained biomedical language representation model for biomedical text mining},
author={Lee, Jinhyuk and Yoon, Wonjin and Kim, Sungdong and Kim, Donghyeon and Kim, Sunkyu and So, Chan Ho and Kang, Jaewoo},
journal={arXiv preprint arXiv:1901.08746},
year={2019}
}
詳細情報
BioBERTの使用中に問題が発生した場合や支援が必要な場合は、GitHubのイシューを提出してください。BioBERT関連のコミュニケーションを行う場合は、Jinhyuk Lee(lee.jnhk (at) gmail.com
)またはWonjin Yoon(wonjin.info (at) gmail.com
)に連絡してください。
モデルカード作成者
Dmis - lab(韓国大学データマイニングと情報システム研究室)は、Ezi OzoaniおよびHugging Faceチームと協力して作成しました。