🚀 GPT2-BioPT - ポルトガル語の生物医学テキスト生成用言語モデル
GPT2-BioPTは、OpenAIのGPT - 2モデルをベースに、生物医学文献を利用してGPorTuguese - 2上で訓練されたポルトガル語ベースの言語モデルです。このモデルは、ポルトガル語の生物医学分野のテキスト生成作業を効果的に支援することができます。
🚀 クイックスタート
HuggingFaceを使用してGPT2 - BioPTモデルを呼び出すサンプルコードは次の通りです。
from transformers import pipeline
chef = pipeline('text-generation', model="pucpr/gpt2-bio-pt", tokenizer="pucpr/gpt2-bio-pt", config={'max_length': 800})
result = chef('O paciente chegou no hospital')[0]['generated_text']
print(result)
結果の例:
O paciente chegou no hospital três meses após a operação, não houve complicações graves. Entre os grupos que apresentaram maior número de lesões, o exame da cavidade pélvica estava significantemente associado à ausência de complicações. Foi encontrada uma maior incidência de fraturas (...)
✨ 主な機能
- 先進的なアーキテクチャに基づく:OpenAIのGPT - 2モデルをベースにしており、強力な言語理解と生成能力を備えています。
- 専門分野での訓練:生物医学文献を使用して訓練され、ポルトガル語の生物医学テキスト生成に最適化されています。
- 転移学習と微調整:転移学習と微調整技術を採用し、110MBの訓練データ(16,209,373個のトークンと729,654個の文に相当)を使用して訓練されています。
📚 ドキュメント
GPT - 2の紹介
GPT - 2は、因果言語モデリング(CLM)の目標で英語で事前学習されたモデルです。このモデルはこの論文で提案され、2019年2月14日にこのページで最初に公開されました。
GPT - 2を公開したチームは、彼らのモデルについて[モデルカード](https://github.com/openai/gpt - 2/blob/master/model_card.md)も作成しました。Hugging Faceチームは、このモデルカードの内容を補完し、提供する情報を充実させ、具体的なバイアスの例を示しています。
モデルの説明
GPT - 2は、非常に大きな英語データセットで自己教師付き方式で事前学習されたTransformerモデルです。つまり、人間によるラベル付けなしに生テキストで事前学習され(これが大量の公開データを使用できる理由です)、自動プロセスによってこれらのテキストから入力とラベルを生成します。具体的には、文の次の単語を予測するように訓練されています。
具体的には、入力は一定の長さの連続したテキストシーケンスであり、目標は同じシーケンスですが、トークン(単語または単語の一部)が1つ右にシフトされています。モデル内部ではマスクメカニズムを使用して、トークン i
の予測には 1
から i
までの入力のみを使用し、未来のトークンは使用しないようにしています。
このようにして、モデルは英語の内部表現を学習し、それを下流のタスクに有用な特徴を抽出するために使用できます。ただし、このモデルは事前学習されたタスク、つまりプロンプトに基づくテキスト生成で最も良い結果を出します。
📄 ライセンス
ライセンスに関する情報は提供されていません。
📚 引用
このモデルを使用した場合は、次の文献を引用してください。
@INPROCEEDINGS{9474713,
author={Schneider, Elisa Terumi Rubel and de Souza, João Vitor Andrioli and Gumiel, Yohan Bonescki and Moro, Claudia and Paraiso, Emerson Cabrera},
booktitle={2021 IEEE 34th International Symposium on Computer-Based Medical Systems (CBMS)},
title={A GPT-2 Language Model for Biomedical Texts in Portuguese},
year={2021},
volume={},
number={},
pages={474-479},
doi={10.1109/CBMS52027.2021.00056}
}
❓ 問題の報告
何か問題があれば、[GPT2 - Bio - Ptリポジトリ](https://github.com/HAILab - PUCPR/gpt2 - bio - pt/) でGitHubの問題を投稿してください。