🚀 MoLFormer-XL-both-10%
MoLFormerは、ZINCとPubChemから最大11億個の分子のSMILES文字列表現で事前学習されたモデルクラスです。このリポジトリは、両方のデータセットの10%で事前学習されたモデル用です。
🚀 クイックスタート
以下のコードを使用すると、このモデルをすぐに使い始めることができます。
import torch
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("ibm/MoLFormer-XL-both-10pct", deterministic_eval=True, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ibm/MoLFormer-XL-both-10pct", trust_remote_code=True)
smiles = ["Cn1c(=O)c2c(ncn2C)n(C)c1=O", "CC(=O)Oc1ccccc1C(=O)O"]
inputs = tokenizer(smiles, padding=True, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
outputs.pooler_output
✨ 主な機能
このモデルは、マスク付き言語モデリングに使用できますが、主に特徴抽出器として使用するか、予測タスクにファインチューニングすることを目的としています。「凍結」されたモデル埋め込みは、類似度測定、可視化、または予測モデルのトレーニングに使用できます。また、シーケンス分類タスク(例:溶解性、毒性など)にもファインチューニングできます。
📚 ドキュメント
モデルの詳細
モデルの説明
MoLFormerは、SMILES文字列として表される小分子でトレーニングされたモデルを学習することを目的として設計された大規模な化学言語モデルです。MoLFormerはマスク付き言語モデリングを利用し、ロータリー埋め込みと組み合わせた線形注意Transformerを採用しています。

上の画像はMoLFormerパイプラインの概要です。Transformerベースのニューラルネットワークモデルが、2つの公開化学データセットであるPubChemとZINCからのSMILESシーケンスで表される大量の化学分子のコレクションで自己教師付き学習方式でトレーニングされていることがわかります。MoLFormerアーキテクチャは、効率的な線形注意メカニズムと相対位置埋め込みを用いて設計され、化学分子の意味のある圧縮表現を学習することを目的としています。トレーニング後、MoLFormerの基礎モデルは、タスク固有のデータでのファインチューニングを通じて、さまざまな下流の分子特性予測タスクに採用されました。MoLFormerの表現力をさらにテストするために、MoLFormerのエンコーディングを使用して分子の類似性を回復し、特定の分子に対する原子間の空間距離と注意値の対応関係の分析が行われました。
想定される使用方法と制限事項
このモデルは、マスク付き言語モデリングに使用できますが、主に特徴抽出器として使用するか、予測タスクにファインチューニングすることを目的としています。「凍結」されたモデル埋め込みは、類似度測定、可視化、または予測モデルのトレーニングに使用できます。また、シーケンス分類タスク(例:溶解性、毒性など)にもファインチューニングできます。
このモデルは分子生成を目的としていません。また、約200原子以上の分子(すなわち、高分子)についてはテストされていません。さらに、無効または非正規形のSMILESを使用すると、性能が低下する可能性があります。
トレーニングの詳細
データ
MoLFormer-XLは、ZINC15とPubChemデータセットの分子の組み合わせでトレーニングされました。このリポジトリには、10%のZINC + 10%のPubChemでトレーニングされたバージョンが含まれています。
分子はトレーニング前にRDKitで正規化され、異性体情報が削除されました。また、202トークンより長い分子は除外されました。
ハードウェア
評価
MoLFormerは、MoleculeNetの11のベンチマークタスクでファインチューニングして評価されました。以下の表は、異なるMoLFormerバリアントの性能を示しています。
|
BBBP |
HIV |
BACE |
SIDER |
ClinTox |
Tox21 |
10% ZINC + 10% PubChem |
91.5 |
81.3 |
86.6 |
68.9 |
94.6 |
84.5 |
10% ZINC + 100% PubChem |
92.2 |
79.2 |
86.3 |
69.0 |
94.7 |
84.5 |
100% ZINC |
89.9 |
78.4 |
87.7 |
66.8 |
82.2 |
83.2 |
MoLFormer-Base |
90.9 |
77.7 |
82.8 |
64.8 |
61.3 |
43.1 |
MoLFormer-XL |
93.7 |
82.2 |
88.2 |
69.0 |
94.8 |
84.7 |
|
QM9 |
QM8 |
ESOL |
FreeSolv |
Lipophilicity |
10% ZINC + 10% PubChem |
1.7754 |
0.0108 |
0.3295 |
0.2221 |
0.5472 |
10% ZINC + 100% PubChem |
1.9093 |
0.0102 |
0.2775 |
0.2050 |
0.5331 |
100% ZINC |
1.9403 |
0.0124 |
0.3023 |
0.2981 |
0.5440 |
MoLFormer-Base |
2.2500 |
0.0111 |
0.2798 |
0.2596 |
0.6492 |
MoLFormer-XL |
1.5984 |
0.0102 |
0.2787 |
0.2308 |
0.5298 |
すべての分類タスクについてAUROCを、QM9/8については平均MAEを、残りの回帰タスクについてはRMSEを報告しています。
引用
@article{10.1038/s42256-022-00580-7,
year = {2022},
title = {{Large-scale chemical language representations capture molecular structure and properties}},
author = {Ross, Jerret and Belgodere, Brian and Chenthamarakshan, Vijil and Padhi, Inkit and Mroueh, Youssef and Das, Payel},
journal = {Nature Machine Intelligence},
doi = {10.1038/s42256-022-00580-7},
pages = {1256--1264},
number = {12},
volume = {4}
}
@misc{https://doi.org/10.48550/arxiv.2106.09553,
doi = {10.48550/ARXIV.2106.09553},
url = {https://arxiv.org/abs/2106.09553},
author = {Ross, Jerret and Belgodere, Brian and Chenthamarakshan, Vijil and Padhi, Inkit and Mroueh, Youssef and Das, Payel},
keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), Biomolecules (q-bio.BM), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Biological sciences, FOS: Biological sciences},
title = {Large-Scale Chemical Language Representations Capture Molecular Structure and Properties},
publisher = {arXiv},
year = {2021},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。