Fine-tuned Progen2-smallオープンソース治療用抗体生成モデル - 大量の配列事前学習で抗体開発を的確に支援

ホーム

Fine Tuned Progen2 Small

AntibodyGenerationによって開発

ProGen2アーキテクチャに基づく治療用抗体生成モデル。2.8億のタンパク質配列で事前学習され、5000の抗体-抗原構造で微調整済み

タンパク質モデル

Transformers

#治療用抗体設計 #タンパク質配列生成 #免疫治療開発

ダウンロード数 67

リリース時間 : 11/17/2023

モデル概要

治療用抗体配列を生成するタンパク質生成モデル。主に免疫治療やワクチン開発研究に応用

モデル特徴

大規模事前学習

2.8億のタンパク質配列で事前学習されており、強力な配列生成能力を有する

抗体特異的微調整

実験的に解析された5000の抗体-抗原結晶構造を使用して微調整され、抗体生成性能を最適化

マルチサイズバリアント

1.51億から64億パラメータまでの異なる規模のモデルを提供し、様々な計算ニーズに対応

モデル能力

治療用抗体配列生成

タンパク質適応性予測

抗体多様性分析

使用事例

医学研究

免疫治療開発

特定疾患に対する治療用抗体候補配列を生成

生成配列の有効性は実験的検証が必要

ワクチン設計

ワクチンに必要な抗体タンパク質配列の設計を支援

🚀 抗体生成器（ProGen2ベース）のモデルカード

抗体生成器は、治療用抗体を生成するために開発された特殊なタンパク質生成モデルです。Salesforceによって開発された高度な言語モデルであるProGen2をベースにしています。このモデルは、免疫学、ワクチン開発、医療治療などの分野での応用が期待されています。

🚀 クイックスタート

モデルの使用方法やサンプルコード、APIドキュメントについては、コードリポジトリを参照してください。

✨ 主な機能

治療用抗体配列の生成を行い、免疫学、ワクチン開発、医療治療などの分野での応用が可能です。
ProGen2モデルをベースにしており、2億8000万以上のタンパク質配列の大規模データセットで事前学習されています。
最大64億のパラメータを持ち、新しい有効なタンパク質配列の生成やタンパク質の適応度予測において最先端の性能を発揮します。

📦 インストール

インストールに関する詳細な手順は、コードリポジトリを参照してください。

💻 使用例

基本的な使用法

from models.progen.modeling_progen import ProGenForCausalLM
import torch
from tokenizers import Tokenizer
import json

# Define the model identifier from Hugging Face's model hub
model_path = 'AntibodyGeneration/fine-tuned-progen2-small'

# Load the model and tokenizer
model = ProGenForCausalLM.from_pretrained(model_path)
tokenizer = Tokenizer.from_file('tokenizer.json')

# Define your sequence and other parameters
target_sequence = 'MQIPQAPWPVVWAVLQLGWRPGWFLDSPDRPWNPPTFSPALLVVTEGDNATFTCSFSNTSESFVLNWYRMSPSNQTDKLAAFPEDRSQPGQDCRFRVTQLPNGRDFHMSVVRARRNDSGTYLCGAISLAPKAQIKESLRAELRVTERRAEVPTAHPSPSPRPAGQFQTLVVGVVGGLLGSLVLLVWVLAVICSRAARGTIGARRTGQPLKEDPSAVPVFSVDYGELDFQWREKTPEPPVPCVPEQTEYATIVFPSGMGTSSPARRGSADGPRSAQPLRPEDGHCSWPL'
number_of_sequences = 2

# Tokenize the sequence
tokenized_sequence = tokenizer(target_sequence, return_tensors="pt")

# Move model and tensors to CUDA if available
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
tokenized_sequence = tokenized_sequence.to(device)

# Generate sequences
with torch.no_grad():
    output = model.generate(**tokenized_sequence, max_length=1024, pad_token_id=tokenizer.pad_token_id, do_sample=True, top_p=0.9, temperature=0.8, num_return_sequences=number_of_sequences)

# Decoding the output to get generated sequences
generated_sequences = [tokenizer.decode(output_seq, skip_special_tokens=True) for output_seq in output]

📚 ドキュメント

モデルの詳細

属性	详情
モデル名	抗体生成器
バージョン	1.0
リリース日	2023年12月15日
モデル開発者	Joesph Roberts, David Noble, Rahul Suresh, Neel Patel
モデルタイプ	タンパク質生成、ProGen2アーキテクチャに基づく
ライセンス	Apache 2.0
コードリポジトリ	https://github.com/joethequant/docker_protein_generator, https://github.com/joethequant/docker_streamlit_antibody_protein_generation
ベースラインモデル参照	ProGen2 Paper

モデルの概要

抗体生成器は、治療用抗体を生成するために開発された特殊なタンパク質生成モデルです。Salesforceによって開発された高度な言語モデルであるProGen2をベースにしています。ProGen2は、2020年に発表された元のProGenモデルの改良版で、2億8000万以上のタンパク質配列の大規模データセットで事前学習されています。最大64億のパラメータを持ち、新しい有効なタンパク質配列の生成やタンパク質の適応度予測において最先端の性能を発揮します。

想定使用法

主な使用例: 免疫学、ワクチン開発、医療治療における治療用抗体配列の生成。
対象ユーザー: バイオインフォマティクス、分子生物学、関連分野の研究者および実践者。

学習データ

ベースラインモデルデータ: ProGen2は、ゲノム、メタゲノム、免疫レパートリーデータベースからの大量のタンパク質配列で学習され、合計2億8000万以上のサンプルが含まれています。
ファインチューニングデータ: ファインチューニングには、構造抗体データベースが使用され、約5000の実験的に解明された抗体とその抗原の結晶構造が含まれています。

モデルのバリエーション

モデルは progen2_<サイズ><ファインチューニングタイプ><プロンプトタイプ> という形式でラベル付けされています。

サイズ: 使用されたprogen2ベースモデルのサイズを指します。4種類のバリエーションがあります。
1. 小: 1億5100万パラメータ
2. 中: 7億6400万パラメータ
3. 大: 27億パラメータ
4. x大: 64億パラメータ
ファインチューニングタイプ: ベースモデルのファインチューニング方法を指します。2種類がサポートされています。
1. ファインチューニングなし
2. シンプルなファインチューニング: ベースモデルは、以下のハイパーパラメータを使用して、約5000の実験的に解明された抗体とその抗原の結晶構造でファインチューニングされます。
3. 凍結層ファインチューニング: ベースモデルは、以下のハイパーパラメータを使用して、約5000の実験的に解明された抗体とその抗原の結晶構造でファインチューニングされます。さらに、過学習を避けるために最後の3層以外のすべての層が凍結されます。
プロンプトタイプ: 推論時にモデルにプロンプトが提供されたかどうかを指します。
1. プロンプト付き: 治療用抗体配列の生成にプロンプトエンジニアリングを使用します。
2. ゼロショット: プロンプトは提供されません。

モデルのハイパーパラメータ

バッチサイズ: 40
エポック数: 10
学習率: 0.00001

評価と性能

評価ツール:

ANARCI: モデルは、抗体番号付けと受容体分類のツールであるANARCIを使用して評価されます。ANARCIは、生成された抗体配列が既知の抗体配列パターンと構造に適合するかどうかを分析するために使用されます。この評価は、生成された配列が新しいだけでなく、生物学的に関連しており、潜在的に機能することを保証するために重要です。ANARCI
多様性スコア: 多様性: 各モデルの出力の多様性を、出力からのすべての可能なペアリングの候補間の配列類似性を計算することで測定できます。この分布の平均は、モデルの出力がどれだけ広く変化するかを示し、生成された候補の下流評価に役立ちます。全体の可変配列とHCDR3領域の両方について平均配列類似性を計算します。

性能と分析:

Model_Performance