🚀 GPT2-BioPT - 用於葡萄牙語生物醫學文本生成的語言模型
GPT2-BioPT 是一個基於葡萄牙語的語言模型,它以 OpenAI 的 GPT - 2 模型為基礎,利用生物醫學文獻,在 GPorTuguese - 2 上進行訓練。該模型能夠有效助力葡萄牙語生物醫學領域的文本生成工作。
🚀 快速開始
使用 HuggingFace 調用 GPT2 - BioPT 模型的示例代碼如下:
from transformers import pipeline
chef = pipeline('text-generation', model="pucpr/gpt2-bio-pt", tokenizer="pucpr/gpt2-bio-pt", config={'max_length': 800})
result = chef('O paciente chegou no hospital')[0]['generated_text']
print(result)
結果示例:
O paciente chegou no hospital três meses após a operação, não houve complicações graves. Entre os grupos que apresentaram maior número de lesões, o exame da cavidade pélvica estava significantemente associado à ausência de complicações. Foi encontrada uma maior incidência de fraturas (...)
✨ 主要特性
- 基於先進架構:基於 OpenAI 的 GPT - 2 模型,具備強大的語言理解和生成能力。
- 專業領域訓練:使用生物醫學文獻進行訓練,針對葡萄牙語生物醫學文本生成進行了優化。
- 遷移學習與微調:採用遷移學習和微調技術,利用 110MB 的訓練數據(對應 16,209,373 個標記和 729,654 個句子)進行訓練。
📚 詳細文檔
GPT - 2 介紹
GPT - 2 是使用因果語言建模(CLM)目標在英語語言上進行預訓練的模型。它在 這篇論文 中被提出,並於 2019 年 2 月 14 日在 此頁面 首次發佈。
發佈 GPT - 2 的團隊還為他們的模型撰寫了 [模型卡片](https://github.com/openai/gpt - 2/blob/master/model_card.md)。Hugging Face 團隊對該模型卡片的內容進行了補充,以完善他們提供的信息並給出具體的偏差示例。
模型描述
GPT - 2 是一個基於自監督方式在非常大的英語數據集上進行預訓練的 Transformer 模型。這意味著它僅在原始文本上進行預訓練,沒有人工對其進行任何標註(這就是為什麼它可以使用大量公開可用的數據),並通過自動過程從這些文本中生成輸入和標籤。更確切地說,它被訓練用於預測句子中的下一個單詞。
具體而言,輸入是一定長度的連續文本序列,目標是相同的序列,但向右移動一個標記(單詞或單詞的一部分)。模型內部使用掩碼機制,以確保對標記 i
的預測僅使用從 1
到 i
的輸入,而不使用未來的標記。
通過這種方式,模型學習到英語語言的內部表示,然後可用於提取對下游任務有用的特徵。不過,該模型在其預訓練的任務上表現最佳,即根據提示生成文本。
📄 許可證
暫未提及相關許可證信息。
📚 引用
如果您使用了本模型,請引用以下文獻:
@INPROCEEDINGS{9474713,
author={Schneider, Elisa Terumi Rubel and de Souza, João Vitor Andrioli and Gumiel, Yohan Bonescki and Moro, Claudia and Paraiso, Emerson Cabrera},
booktitle={2021 IEEE 34th International Symposium on Computer-Based Medical Systems (CBMS)},
title={A GPT-2 Language Model for Biomedical Texts in Portuguese},
year={2021},
volume={},
number={},
pages={474-479},
doi={10.1109/CBMS52027.2021.00056}
}
❓ 問題反饋
如果您有任何問題,請在 [GPT2 - Bio - Pt 倉庫](https://github.com/HAILab - PUCPR/gpt2 - bio - pt/) 上發佈 GitHub 問題。