🚀 GP-MoLFormer-Uniq
GP-MoLFormerは、ZINCとPubChemからの0.65 - 11億個の分子のSMILES文字列表現で事前学習されたモデルのクラスです。このリポジトリは、両方のデータセットからのすべての「一意の」分子で事前学習されたモデル用です。
このモデルは、Rossらによる論文 GP-MoLFormer: A Foundation Model For Molecular Generation で紹介され、このリポジトリ で公開されました。
📚 ドキュメント
モデルの説明
GP-MoLFormerは、分子生成タスクを目的とした大規模自己回帰型化学言語モデルです。GP-MoLFormerは、MoLFormer-XLと同じアーキテクチャを採用しており、線形注意機構と回転位置埋め込みを含みますが、因果的言語モデリングの目的でトレーニングされたデコーダーのみのTransformerブロックを使用しています。このモデルは、SMILES表現で最大11億個の分子でトレーニングされています。
GP-MoLFormerは、de novo 生成(大規模で)、スカフォールド制約付き装飾、および分子特性最適化タスクで評価されました。
想定される使用方法と制限
事前学習されたモデルは、無条件の de novo 分子生成にそのまま使用できます。また、部分的なSMILES文字列を入力することで、スカフォールドの完成/装飾を行うこともできます。さらに、特定のデータセットで微調整することで出力分布を変更したり(例えば、より薬物様の分子を生成する)、ペアチューニングを使用して分子最適化のために調整することもできます。詳細については、論文とGitHubリポジトリを参照してください。
このモデルは、分類性能についてはテストされていません。また、約200原子以上の分子(すなわち、高分子)についてもテストされていません。さらに、無効または非標準的なSMILESを使用すると、性能が低下する可能性があります。
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-research/GP-MoLFormer-Uniq", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ibm-research/MoLFormer-XL-both-10pct", trust_remote_code=True)
outputs = model.generate(do_sample=True, top_k=None, max_length=202, num_return_sequences=3)
tokenizer.batch_decode(outputs, skip_special_tokens=True)
🔧 技術詳細
データ
GP-MoLFormerは、ZINC15とPubChemデータセットの分子の組み合わせでトレーニングされました。このリポジトリには、両方のデータセットからのすべての「一意の」分子でトレーニングされたバージョンが含まれています。
分子は、トレーニング前にRDKitで標準化され、異性体情報が削除されました。また、202トークンより長い分子は除外されました。
ハードウェア
- 16 x NVIDIA A100 80GB GPU
評価
私たちは、GP-MoLFormerをさまざまな生成指標で評価しました。以下の表は、GP-MoLFormer-Uniqとベースラインモデルの性能を比較したものです。
|
Val↑ |
Uniq@10k↑ |
Nov↑ |
Frag↑ |
Scaf↑ |
SNN↑ |
IntDiv↑ |
FCD↓ |
CharRNN |
0.975 |
0.999 |
0.842 |
0.9998 |
0.9242 |
0.6015 |
0.8562 |
0.0732 |
VAE |
0.977 |
0.998 |
0.695 |
0.9984 |
0.9386 |
0.6257 |
0.8558 |
0.0990 |
JT-VAE |
1.000 |
1.000 |
0.914 |
0.9965 |
0.8964 |
0.5477 |
0.8551 |
0.3954 |
LIMO |
1.000 |
0.976 |
1.000 |
0.6989 |
0.0079 |
0.2464 |
0.9039 |
26.78 |
MolGen-7B |
1.000 |
1.000 |
0.934 |
0.9999 |
0.6538 |
0.5138 |
0.8617 |
0.0435 |
GP-MoLFormer-Uniq |
1.000 |
0.977 |
0.390 |
0.9998 |
0.7383 |
0.5045 |
0.8655 |
0.0591 |
私たちは、すべての指標を各モデルのそれぞれのテストセットに対して典型的なMOSES定義を使用して報告しています。注意: 新奇性は、各モデルのそれぞれのトレーニングセットに対するものです。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
引用
@misc{ross2025gpmolformerfoundationmodelmolecular,
title={GP-MoLFormer: A Foundation Model For Molecular Generation},
author={Jerret Ross and Brian Belgodere and Samuel C. Hoffman and Vijil Chenthamarakshan and Jiri Navratil and Youssef Mroueh and Payel Das},
year={2025},
eprint={2405.04912},
archivePrefix={arXiv},
primaryClass={q-bio.BM},
url={https://arxiv.org/abs/2405.04912},
}