DrugGPT开源药物设计模型 - 借助自然语言处理创新药物设计方案

首页

Druggpt

由 liyuesen 开发

DrugGPT是基于GPT2结构的生成式药物设计模型，通过自然语言处理技术为药物设计带来创新。

分子模型

Transformers

开源协议:Gpl-3.0 #生成式药物设计 #蛋白质配体生成 #GPT2化学空间探索

下载量 495

发布时间 : 4/16/2023

模型简介

DrugGPT将GPT模型应用于化学空间探索，以发现对特定蛋白质具有潜在结合能力的新分子。通过训练180万条蛋白质-配体结合数据，为候选药物分子的生成提供快速高效的方法。

模型特点

大规模数据训练

训练了180万条蛋白质-配体结合数据，确保模型生成分子的可靠性。

高效分子生成

能够快速生成针对特定蛋白质的候选药物分子。

支持配体提示

用户可以通过输入配体提示来引导分子生成过程。

模型能力

生成候选药物分子

探索化学空间

蛋白质-配体结合预测

使用案例

药物发现

靶向药物设计

针对特定蛋白质生成潜在的小分子配体。

生成50个候选分子

🚀 DrugGPT

DrugGPT是一个基于GPT2的生成式药物设计模型，它借助自然语言处理技术，将GPT模型应用于化学空间探索，旨在为药物设计带来创新，能够发现对特定蛋白质具有潜在结合能力的新分子。

🚀 快速开始

DrugGPT是一种基于GPT结构的生成式药物策略，旨在通过自然语言处理技术为药物设计带来创新。

本项目将GPT模型应用于化学空间探索，以发现对特定蛋白质具有潜在结合能力的新分子。

DrugGPT通过对多达180万条蛋白质 - 配体结合数据进行训练，为生成候选药物分子提供了一种快速有效的方法。

📦 安装指南

克隆仓库
```
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
```
或者，你也可以访问我们的 GitHub仓库，点击 Code>Download ZIP 下载该仓库。

创建虚拟环境

conda create -n druggpt python=3.7
conda activate druggpt

下载Python依赖项

pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel

💻 使用示例

基础用法

使用 drug_generator.py 脚本，需要指定以下参数：

-p | --pro_seq：输入蛋白质氨基酸序列。
-f | --fasta：输入FASTA文件。

⚠️ 重要提示

-p 和 -f 只能指定其中一个。
-l | --ligand_prompt：输入配体提示。
-e | --empty_input：启用直接生成模式。
-n | --number：至少生成多少个分子。
-d | --device：使用的硬件设备，默认为 'cuda'。
-o | --output：生成分子的输出目录，默认为 './ligand_output/'。
-b | --batch_size：每批生成多少个分子。如果内存较低，请尝试减小该值，默认为32。

高级用法

以下是不同场景下的使用示例：

输入蛋白质FASTA文件

python drug_generator.py -f bcl2.fasta -n 50

输入蛋白质氨基酸序列

python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50

提供配体提示

python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50

在Linux环境下使用

⚠️ 重要提示

如果你在Linux环境下运行，需要用单引号('')将配体提示括起来。
```
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
```

📝 如何引用本工作

DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins

Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han

bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

📄 许可证

GNU通用公共许可证v3.0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库