Ppace V1.0
P
Ppace V1.0
nlpieによって開発
PPACEは80億パラメータの大規模言語モデルで、生物医学研究資金プロジェクトの要約を自動分類するために設計され、世界保健機関(WHO)の研究優先順位分類をサポートします。
ダウンロード数 37
リリース時間 : 4/25/2025
モデル概要
このモデルはファインチューニングにより実現され、世界保健機関の研究優先順位に基づいて生物医学研究資金プロジェクトの要約を自動分類するために特別に設計されており、GLOPID-R Pandemic PACTプロジェクトの構成要素です。
モデル特徴
専門分野分類
生物医学研究プロジェクトに特化し、12のWHO研究優先順位の正確な分類をサポート
説明可能性の強化
分類根拠の生成によりモデル判断の説明可能性を向上
効率的なファインチューニング
LoRA技術を採用し効率的なトレーニングを実現、高性能を維持しながら計算リソース要件を削減
モデル能力
生物医学テキスト理解
マルチラベル分類
分類根拠生成
使用事例
研究資金管理
研究資金流動分析
生物医学研究プロジェクトを自動分類し、特定疾患分野の研究資金配分を追跡
各種疾患研究資金の分布レポートを迅速に生成可能
公衆衛生意思決定支援
研究優先順位分析
流行可能性のある疾患の研究ギャップを特定
公衆衛生緊急対応準備のためのデータ支援を提供
## 🚀 パンデミックPACT高度分類エンジン (PPACE)
PPACEは、世界保健機関(WHO)に準拠した研究優先事項に基づいて、資金提供を受けた生物医学プロジェクトの研究要約を自動分類するために微調整された80億パラメータの大規模言語モデル(LLM)です。GLOPID - RパンデミックPACTプロジェクトの一環として開発され、PPACEは、発生可能性のある幅広い疾病に関する研究資金と臨床エビデンスの追跡と分析を支援します。
## 🚀 クイックスタート
PPACEモデルを使用することで、生物医学研究の抽象化を分類することができます。以下に、使用方法の概要を説明します。
## ✨ 主な機能
- WHOに準拠した研究優先事項に基づいて、生物医学研究の要約を自動分類します。
- 人間によるアノテーションと大規模LLMによる根拠生成を組み合わせたデータセットを利用し、モデルの解釈可能性と精度を向上させます。
- Low - Rank Adaptation (LoRA)を使用して微調整され、高性能を維持しながら効率的なトレーニングを実現します。
## 📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコードでは、モデルを読み込むために必要な`transformers`ライブラリなどを使用しています。
```python
# 必要なライブラリのインストール
# ここでは仮にpipでのインストールを想定
pip install transformers torch
💻 使用例
基本的な使用法
まず、入力プロンプトを作成し、モデルを読み込み、推論を行います。
import torch
import transformers as ts
def construct_input_prompt(title, abstract):
categories = """We have a project in the area of biomedical research which we want to classify in terms of the research priorities it related to. We have 12 possible research priorities and a project can be mapped to 1 or more of these priorities. The following is a guide on what each of these 12 categories are alongside the specific areas that they cover.
1. Pathogen: Natural History, Transmission, and Diagnostics:
Development of diagnostic tools, understanding pathogen morphology, genomics, and genotyping, studying immunity, using disease models, and assessing the environmental stability of pathogens.
2. Animal and Environmental Research & Research on Diseases Vectors:
Animal sources, transmission routes, vector biology, and control strategies for vectors.
3. Epidemiological Studies:
Research on disease transmission dynamics, susceptibility, control measure effectiveness, and disease mapping through surveillance and reporting.
4. Clinical Characterisation and Management in Humans:
Prognostic factors for disease severity, disease pathogenesis, supportive care and management, long - term health consequences, and clinical trials for disease management.
5. Infection Prevention and Control:
Research on community restriction measures, barriers and PPE, infection control in healthcare settings, and measures at the human - animal interface.
6. Therapeutics Research, Development, and Implementation:
Pre - clinical studies for therapeutic development, clinical trials for therapeutic safety and efficacy, development of prophylactic treatments, logistics and supply chain management for therapeutics, clinical trial design for therapeutics, and research on adverse events related to therapeutic administration.
7. Vaccines Research, Development, and Implementation:
Pre - clinical studies for vaccine development, clinical trials for vaccine safety and efficacy, logistics and distribution strategies for vaccines, vaccine design and administration, clinical trial design for vaccines, research on adverse events related to immunisation, and characterisation of vaccine - induced immunity.
8. Research to Inform Ethical Issues:
Ethical considerations in research design, ethical issues in public health measures, ethical clinical decision - making, ethical resource allocation, ethical governance, and ethical considerations in social determinants of health.
9. Policies for public health, disease control and community resilience:
Approaches to public health interventions, community engagement, communication and infodemic management, vaccine/therapeutic hesitancy, and policy research and interventions.
10. Secondary Impacts of Disease, Response, and Control Measures:
Indirect health impacts, social impacts, economic impacts, and other secondary impacts such as environmental effects, food security, and infrastructure.
11. Health Systems Research:
Health service delivery, health financing, access to medicines and technologies, health information systems, health leadership and governance, and health workforce management.
12. Capacity Strengthening:
Individual capacity building, institutional capacity strengthening, systemic/environmental components, and cross - cutting activities across all levels of capacity building."""
prompt = "Based on the research categorization guidelines, classify the following project into the appropriate primary research priorities using the categories 1 to 12."
prompt += f"\n\n{categories.strip()}\n\nProject Information:\n\n"
prompt += f"### Title:\n'''\n{title.strip()}\n'''\n\n### Abstract:\n'''\n{abstract.strip()}\n'''\n\n"
prompt += "Based on this information, identify the relevant research categories for this project. Provide clear explanation for your choices. Section your response in the following format:"
prompt += "\n\n### Explanation: ...\n\n### Categories: ..."
return prompt
title = "Neutralization of Primate Immunodeficiency Viruses"
abstract = "We will repurpose existing assays, techniques and expertise that are central to our project team's virology, structural biology, vaccine development and protein production skill - sets for HIV research, to now also work on SARS - CoV - 2 during the COVID - 19 pandemic emergency. These interactive research efforts will draw on our established methodologies and should represent a productive use of our existing NIH grant resources. We note that there continue to be institutional restrictions at all three performance sites on the effort that can be applied to our original goals relating to HIV - 1 vaccine research and development. Those goals will be unchanged, but will be pursued at a reduced effort during the period when we also work on the new SARS - CoV - 2 projects for which we have fewer institutional restrictions due to the COVID - 19 pandemic."
input_prompt = construct_input_prompt(title, abstract)
model_id = "nlpie/ppace - v1.0"
tokenizer = ts.AutoTokenizer.from_pretrained(model_id)
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token
model = ts.AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
attn_implementation="flash_attention_2",
torch_dtype=torch.bfloat16)
def generateOutput(input):
inputs = tokenizer(
[
tokenizer.decode(tokenizer.apply_chat_template([{"content": input, "role": "user"}]))
], return_tensors = "pt").to("cuda")
output = model.generate(**inputs, max_new_tokens = 512, num_beams=4, eos_token_id=tokenizer("<|eot_id|>", add_special_tokens=False)["input_ids"][0])
return tokenizer.decode(output[0])
output = generateOutput(input_prompt)
print(output)
🔧 技術詳細
PPACEは、Low - Rank Adaptation (LoRA)を使用して微調整されています。これにより、高性能を維持しながら効率的なトレーニングが可能になります。微調整プロセスでは、5142件のプロジェクトのデータセットで4エポックのトレーニングを行い、8台のA100 GPUを使用し、GPUごとのバッチサイズを1、勾配累積ステップを4としています。
ハイパーパラメータ
ハイパーパラメータ | 値 |
---|---|
総バッチサイズ | 8 |
勾配累積ステップ | 4 |
学習率 | 2e - 4 |
LRスケジューラ | Linear |
エポック数 | 2 |
LoRAランク | 128 |
LoRA α | 256 |
LoRAドロップアウト | 0.05 |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
以上のREADMEでは、元の文書の内容を日本語に翻訳し、必要な要素を追加して構造化し、視覚的に分かりやすくなるように整形しました。コードブロックやテーブルなどの形式はそのままに、必要な箇所にemojiを追加しています。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98