🚀 DrugGPT
GPT2ベースの生成型創薬モデルで、化学、生物学、医学の分野に貢献します。
🚀 クイックスタート
DrugGPTは、GPT構造に基づく生成型創薬戦略です。自然言語処理技術を用いて、創薬設計に革新をもたらすことを目指しています。このプロジェクトでは、GPTモデルを化学空間の探索に応用し、特定のタンパク質に対して潜在的な結合能力を持つ新しい分子を発見します。DrugGPTは、最大180万件のタンパク質-リガンド結合データを用いて学習することで、創薬候補分子の生成に高速かつ効率的な方法を提供します。
✨ 主な機能
- GPT構造を利用した生成型創薬戦略。
- 化学空間の探索による新分子の発見。
- 大量のタンパク質-リガンド結合データを用いた学習。
📦 インストール
- リポジトリをクローンする
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
または、GitHubリポジトリにアクセスし、Code>Download ZIPをクリックしてリポジトリをダウンロードすることもできます。
- 仮想環境を作成する
conda create -n druggpt python=3.7
conda activate druggpt
- Pythonの依存関係をダウンロードする
pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel
💻 使用例
基本的な使用法
- タンパク質のFASTAファイルを入力する場合
python drug_generator.py -f bcl2.fasta -n 50
- タンパク質のアミノ酸配列を入力する場合
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
- リガンドのプロンプトを指定する場合
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
- 注意: Linux環境で実行する場合、リガンドのプロンプトをシングルクォート('')で囲む必要があります。
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
高度な使用法
使用する際の必須パラメータは以下の通りです。
-p
| --pro_seq
: タンパク質のアミノ酸配列を入力します。
-f
| --fasta
: FASTAファイルを入力します。
-pと-fのどちらか一方のみを指定する必要があります。
-l
| --ligand_prompt
: リガンドのプロンプトを入力します。
-e
| --empty_input
: 直接生成モードを有効にします。
-n
| --number
: 少なくとも生成する分子の数を指定します。
-d
| --device
: 使用するハードウェアデバイスを指定します。デフォルトは 'cuda' です。
-o
| --output
: 生成された分子の出力ディレクトリを指定します。デフォルトは './ligand_output/' です。
-b
| --batch_size
: バッチごとに生成する分子の数を指定します。RAMが少ない場合はこの値を小さくしてみてください。デフォルトは32です。
📚 ドキュメント
この研究の引用方法
DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

📄 ライセンス
GNU General Public License v3.0