🚀 DrugGPT
DrugGPT是一個基於GPT2的生成式藥物設計模型,它藉助自然語言處理技術,將GPT模型應用於化學空間探索,旨在為藥物設計帶來創新,能夠發現對特定蛋白質具有潛在結合能力的新分子。
🚀 快速開始
DrugGPT是一種基於GPT結構的生成式藥物策略,旨在通過自然語言處理技術為藥物設計帶來創新。
本項目將GPT模型應用於化學空間探索,以發現對特定蛋白質具有潛在結合能力的新分子。
DrugGPT通過對多達180萬條蛋白質 - 配體結合數據進行訓練,為生成候選藥物分子提供了一種快速有效的方法。
📦 安裝指南
- 克隆倉庫
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
或者,你也可以訪問我們的 GitHub倉庫,點擊 Code>Download ZIP 下載該倉庫。
- 創建虛擬環境
conda create -n druggpt python=3.7
conda activate druggpt
- 下載Python依賴項
pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel
💻 使用示例
基礎用法
使用 drug_generator.py 腳本,需要指定以下參數:
-p
| --pro_seq
:輸入蛋白質氨基酸序列。
-f
| --fasta
:輸入FASTA文件。
⚠️ 重要提示
-p
和 -f
只能指定其中一個。
-l
| --ligand_prompt
:輸入配體提示。
-e
| --empty_input
:啟用直接生成模式。
-n
| --number
:至少生成多少個分子。
-d
| --device
:使用的硬件設備,默認為 'cuda'。
-o
| --output
:生成分子的輸出目錄,默認為 './ligand_output/'。
-b
| --batch_size
:每批生成多少個分子。如果內存較低,請嘗試減小該值,默認為32。
高級用法
以下是不同場景下的使用示例:
- 輸入蛋白質FASTA文件
python drug_generator.py -f bcl2.fasta -n 50
- 輸入蛋白質氨基酸序列
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
- 提供配體提示
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
- 在Linux環境下使用
⚠️ 重要提示
如果你在Linux環境下運行,需要用單引號('')將配體提示括起來。
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
📝 如何引用本工作
DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

📄 許可證
GNU通用公共許可證v3.0