🚀 medBERT-base
このリポジトリには、BERTベースのモデル「medBERT-base」が含まれています。このモデルは、gayanin/pubmed-gastro-maskfillingデータセットでマスク付き言語モデリング(MLM) タスク向けにファインチューニングされています。医療および消化器系のテキストにおけるマスクされたトークンの予測を行うように訓練されており、自然言語の文脈での医療関連情報の理解と生成能力を向上させることが目的です。

✨ 主な機能
- 医療および消化器系のテキストに対するマスク付き言語モデリング(MLM)タスクに最適化されたBERTベースのモデルです。
- 医療関連情報の理解と生成能力を向上させることができます。
📦 インストール
このモデルはHugging Faceのtransformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
事前学習済みのmedBERT-baseモデルをHugging Faceのtransformers
ライブラリを使って読み込むことができます。
from transformers import BertTokenizer, BertForMaskedLM
import torch
tokenizer = BertTokenizer.from_pretrained('suayptalha/medBERT-base')
model = BertForMaskedLM.from_pretrained('suayptalha/medBERT-base').to("cuda")
input_text = "Response to neoadjuvant chemotherapy best predicts survival [MASK] curative resection of gastric cancer."
inputs = tokenizer(input_text, return_tensors='pt').to("cuda")
outputs = model(**inputs)
masked_index = (inputs['input_ids'][0] == tokenizer.mask_token_id).nonzero(as_tuple=True)[0].item()
top_k = 5
logits = outputs.logits[0, masked_index]
top_k_ids = torch.topk(logits, k=top_k).indices.tolist()
top_k_tokens = tokenizer.convert_ids_to_tokens(top_k_ids)
print("Top 5 prediction:")
for i, token in enumerate(top_k_tokens):
print(f"{i + 1}: {token}")
Top 5 prediction:
1: from
2: of
3: after
4: by
5: through
高度な使用法
独自の医療データセットでmedBERT-baseモデルをファインチューニングするには、以下の手順に従ってください。
- データセット(例:医療テキストや消化器系関連の情報)をテキスト形式で準備します。
- データセットをトークナイズし、マスキングを適用します。
- 提供されたトレーニングループを使用してモデルをトレーニングします。
以下はトレーニングコードです。
https://github.com/suayptalha/medBERT-base/blob/main/medBERT-base.ipynb
📚 ドキュメント
モデルアーキテクチャ
- ベースモデル:
bert-base-uncased
- タスク: 医療テキストのマスク付き言語モデリング(MLM)
- トークナイザー: BERTのWordPieceトークナイザー
トレーニング詳細
ハイパーパラメータ
- バッチサイズ: 16
- 学習率: 5e-5
- エポック数: 1
- 最大シーケンス長: 512トークン
データセット
- データセット名: gayanin/pubmed-gastro-maskfilling
- タスク: 医療テキストのマスク付き言語モデリング(MLM)
🔧 技術詳細
このモデルは、医療関連の情報を自然言語の文脈で理解し、生成する能力を向上させるために、gayanin/pubmed-gastro-maskfillingデータセットを使用してファインチューニングされています。ベースモデルとしてbert-base-uncased
を使用し、BERTのWordPieceトークナイザーを用いてトークナイズを行います。トレーニングには特定のハイパーパラメータが使用され、医療テキストのマスク付き言語モデリング(MLM)タスクに特化しています。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。
謝辞
- gayanin/pubmed-gastro-maskfillingデータセットはHugging Faceのデータセットハブで利用可能で、トレーニング用の医療および消化器系関連の豊富な情報を提供しています。
- このモデルは、NLPモデル用の最先端のライブラリであるHugging Faceの
transformers
ライブラリを使用しています。
サポート:
