medBERT-base开源医疗语言模型 - 免费助力医学和胃肠病学文本分析

首页

Medbert Base

由 suayptalha 开发

medBERT-base是基于BERT的模型，专注于医学和胃肠病学文本的掩码语言建模任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #医学文本填充 #胃肠病学专用 #BERT微调

下载量 24

发布时间 : 12/24/2024

模型简介

该模型在gayanin/pubmed-gastro-maskfilling数据集上进行了微调，用于预测医学和胃肠病学文本中的掩码标记，提升模型在自然语言上下文中理解和生成医学相关信息的能力。

模型特点

医学文本优化

针对医学和胃肠病学文本进行了专门优化，能够更好地理解和生成相关领域的专业内容。

基于BERT架构

基于bert-base-uncased模型，继承了BERT的强大语言理解能力。

掩码语言建模

专注于掩码语言建模任务，能够预测医学文本中被掩码的词汇。

模型能力

医学文本理解

掩码词汇预测

医学文本生成

使用案例

医学研究

医学文献分析

用于分析医学文献中的专业术语和上下文关系。

能够准确预测医学文本中的掩码词汇。

胃肠病学研究

针对胃肠病学领域的文本进行深入理解和分析。

在胃肠病学文本中表现出色。

🚀 medBERT-base

本仓库包含一个基于BERT的模型 medBERT-base，该模型在 gayanin/pubmed-gastro-maskfilling 数据集上针对**掩码语言模型（Masked Language Modeling，MLM）**任务进行了微调。该模型经过训练，可预测医学和胃肠病学文本中被掩码的标记。本项目的目标是提升模型在自然语言语境中对医学相关信息的理解和生成能力。

medBERT-logo

🚀 快速开始

本项目的medBERT-base模型是基于BERT架构，在特定医学数据集上微调得到，可用于掩码语言模型任务，帮助预测医学文本中被掩码的标记。

✨ 主要特性

基础模型：bert-base-uncased
任务：针对医学文本的掩码语言模型（MLM）
分词器：BERT的WordPiece分词器

💻 使用示例

基础用法

你可以使用Hugging Face的 transformers 库加载预训练的 medBERT-base 模型：

from transformers import BertTokenizer, BertForMaskedLM
import torch

tokenizer = BertTokenizer.from_pretrained('suayptalha/medBERT-base')
model = BertForMaskedLM.from_pretrained('suayptalha/medBERT-base').to("cuda")

input_text = "Response to neoadjuvant chemotherapy best predicts survival [MASK] curative resection of gastric cancer."
inputs = tokenizer(input_text, return_tensors='pt').to("cuda")

outputs = model(**inputs)

masked_index = (inputs['input_ids'][0] == tokenizer.mask_token_id).nonzero(as_tuple=True)[0].item()

top_k = 5
logits = outputs.logits[0, masked_index]
top_k_ids = torch.topk(logits, k=top_k).indices.tolist()
top_k_tokens = tokenizer.convert_ids_to_tokens(top_k_ids)

print("Top 5 prediction:")
for i, token in enumerate(top_k_tokens):
    print(f"{i + 1}: {token}")