medBERT-base開源醫療語言模型 - 免費助力醫學和胃腸病學文本分析

首頁

Medbert Base

由suayptalha開發

medBERT-base是基於BERT的模型，專注於醫學和胃腸病學文本的掩碼語言建模任務。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #醫學文本填充 #胃腸病學專用 #BERT微調

下載量 24

發布時間 : 12/24/2024

模型概述

該模型在gayanin/pubmed-gastro-maskfilling數據集上進行了微調，用於預測醫學和胃腸病學文本中的掩碼標記，提升模型在自然語言上下文中理解和生成醫學相關信息的能力。

模型特點

醫學文本優化

針對醫學和胃腸病學文本進行了專門優化，能夠更好地理解和生成相關領域的專業內容。

基於BERT架構

基於bert-base-uncased模型，繼承了BERT的強大語言理解能力。

掩碼語言建模

專注於掩碼語言建模任務，能夠預測醫學文本中被掩碼的詞彙。

模型能力

醫學文本理解

掩碼詞彙預測

醫學文本生成

使用案例

醫學研究

醫學文獻分析

用於分析醫學文獻中的專業術語和上下文關係。

能夠準確預測醫學文本中的掩碼詞彙。

胃腸病學研究

針對胃腸病學領域的文本進行深入理解和分析。

在胃腸病學文本中表現出色。

🚀 medBERT-base

本倉庫包含一個基於BERT的模型 medBERT-base，該模型在 gayanin/pubmed-gastro-maskfilling 數據集上針對**掩碼語言模型（Masked Language Modeling，MLM）**任務進行了微調。該模型經過訓練，可預測醫學和胃腸病學文本中被掩碼的標記。本項目的目標是提升模型在自然語言語境中對醫學相關信息的理解和生成能力。

medBERT-logo

🚀 快速開始

本項目的medBERT-base模型是基於BERT架構，在特定醫學數據集上微調得到，可用於掩碼語言模型任務，幫助預測醫學文本中被掩碼的標記。

✨ 主要特性

基礎模型：bert-base-uncased
任務：針對醫學文本的掩碼語言模型（MLM）
分詞器：BERT的WordPiece分詞器

💻 使用示例

基礎用法

你可以使用Hugging Face的 transformers 庫加載預訓練的 medBERT-base 模型：

from transformers import BertTokenizer, BertForMaskedLM
import torch

tokenizer = BertTokenizer.from_pretrained('suayptalha/medBERT-base')
model = BertForMaskedLM.from_pretrained('suayptalha/medBERT-base').to("cuda")

input_text = "Response to neoadjuvant chemotherapy best predicts survival [MASK] curative resection of gastric cancer."
inputs = tokenizer(input_text, return_tensors='pt').to("cuda")

outputs = model(**inputs)

masked_index = (inputs['input_ids'][0] == tokenizer.mask_token_id).nonzero(as_tuple=True)[0].item()

top_k = 5
logits = outputs.logits[0, masked_index]
top_k_ids = torch.topk(logits, k=top_k).indices.tolist()
top_k_tokens = tokenizer.convert_ids_to_tokens(top_k_ids)

print("Top 5 prediction:")
for i, token in enumerate(top_k_tokens):
    print(f"{i + 1}: {token}")