🚀 GPT2-BioPT - 用于葡萄牙语生物医学文本生成的语言模型
GPT2-BioPT 是一个基于葡萄牙语的语言模型,它以 OpenAI 的 GPT - 2 模型为基础,利用生物医学文献,在 GPorTuguese - 2 上进行训练。该模型能够有效助力葡萄牙语生物医学领域的文本生成工作。
🚀 快速开始
使用 HuggingFace 调用 GPT2 - BioPT 模型的示例代码如下:
from transformers import pipeline
chef = pipeline('text-generation', model="pucpr/gpt2-bio-pt", tokenizer="pucpr/gpt2-bio-pt", config={'max_length': 800})
result = chef('O paciente chegou no hospital')[0]['generated_text']
print(result)
结果示例:
O paciente chegou no hospital três meses após a operação, não houve complicações graves. Entre os grupos que apresentaram maior número de lesões, o exame da cavidade pélvica estava significantemente associado à ausência de complicações. Foi encontrada uma maior incidência de fraturas (...)
✨ 主要特性
- 基于先进架构:基于 OpenAI 的 GPT - 2 模型,具备强大的语言理解和生成能力。
- 专业领域训练:使用生物医学文献进行训练,针对葡萄牙语生物医学文本生成进行了优化。
- 迁移学习与微调:采用迁移学习和微调技术,利用 110MB 的训练数据(对应 16,209,373 个标记和 729,654 个句子)进行训练。
📚 详细文档
GPT - 2 介绍
GPT - 2 是使用因果语言建模(CLM)目标在英语语言上进行预训练的模型。它在 这篇论文 中被提出,并于 2019 年 2 月 14 日在 此页面 首次发布。
发布 GPT - 2 的团队还为他们的模型撰写了 [模型卡片](https://github.com/openai/gpt - 2/blob/master/model_card.md)。Hugging Face 团队对该模型卡片的内容进行了补充,以完善他们提供的信息并给出具体的偏差示例。
模型描述
GPT - 2 是一个基于自监督方式在非常大的英语数据集上进行预训练的 Transformer 模型。这意味着它仅在原始文本上进行预训练,没有人工对其进行任何标注(这就是为什么它可以使用大量公开可用的数据),并通过自动过程从这些文本中生成输入和标签。更确切地说,它被训练用于预测句子中的下一个单词。
具体而言,输入是一定长度的连续文本序列,目标是相同的序列,但向右移动一个标记(单词或单词的一部分)。模型内部使用掩码机制,以确保对标记 i
的预测仅使用从 1
到 i
的输入,而不使用未来的标记。
通过这种方式,模型学习到英语语言的内部表示,然后可用于提取对下游任务有用的特征。不过,该模型在其预训练的任务上表现最佳,即根据提示生成文本。
📄 许可证
暂未提及相关许可证信息。
📚 引用
如果您使用了本模型,请引用以下文献:
@INPROCEEDINGS{9474713,
author={Schneider, Elisa Terumi Rubel and de Souza, João Vitor Andrioli and Gumiel, Yohan Bonescki and Moro, Claudia and Paraiso, Emerson Cabrera},
booktitle={2021 IEEE 34th International Symposium on Computer-Based Medical Systems (CBMS)},
title={A GPT-2 Language Model for Biomedical Texts in Portuguese},
year={2021},
volume={},
number={},
pages={474-479},
doi={10.1109/CBMS52027.2021.00056}
}
❓ 问题反馈
如果您有任何问题,请在 [GPT2 - Bio - Pt 仓库](https://github.com/HAILab - PUCPR/gpt2 - bio - pt/) 上发布 GitHub 问题。