🚀 DrugGPT
DrugGPT是一个基于GPT2的生成式药物设计模型,它借助自然语言处理技术,将GPT模型应用于化学空间探索,旨在为药物设计带来创新,能够发现对特定蛋白质具有潜在结合能力的新分子。
🚀 快速开始
DrugGPT是一种基于GPT结构的生成式药物策略,旨在通过自然语言处理技术为药物设计带来创新。
本项目将GPT模型应用于化学空间探索,以发现对特定蛋白质具有潜在结合能力的新分子。
DrugGPT通过对多达180万条蛋白质 - 配体结合数据进行训练,为生成候选药物分子提供了一种快速有效的方法。
📦 安装指南
- 克隆仓库
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
或者,你也可以访问我们的 GitHub仓库,点击 Code>Download ZIP 下载该仓库。
- 创建虚拟环境
conda create -n druggpt python=3.7
conda activate druggpt
- 下载Python依赖项
pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel
💻 使用示例
基础用法
使用 drug_generator.py 脚本,需要指定以下参数:
-p
| --pro_seq
:输入蛋白质氨基酸序列。
-f
| --fasta
:输入FASTA文件。
⚠️ 重要提示
-p
和 -f
只能指定其中一个。
-l
| --ligand_prompt
:输入配体提示。
-e
| --empty_input
:启用直接生成模式。
-n
| --number
:至少生成多少个分子。
-d
| --device
:使用的硬件设备,默认为 'cuda'。
-o
| --output
:生成分子的输出目录,默认为 './ligand_output/'。
-b
| --batch_size
:每批生成多少个分子。如果内存较低,请尝试减小该值,默认为32。
高级用法
以下是不同场景下的使用示例:
- 输入蛋白质FASTA文件
python drug_generator.py -f bcl2.fasta -n 50
- 输入蛋白质氨基酸序列
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
- 提供配体提示
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
- 在Linux环境下使用
⚠️ 重要提示
如果你在Linux环境下运行,需要用单引号('')将配体提示括起来。
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
📝 如何引用本工作
DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

📄 许可证
GNU通用公共许可证v3.0