DrugGPT開源藥物設計模型 - 藉助自然語言處理創新藥物設計方案

首頁

Druggpt

由liyuesen開發

DrugGPT是基於GPT2結構的生成式藥物設計模型，通過自然語言處理技術為藥物設計帶來創新。

分子模型

Transformers

開源協議:Gpl-3.0 #生成式藥物設計 #蛋白質配體生成 #GPT2化學空間探索

下載量 495

發布時間 : 4/16/2023

模型概述

DrugGPT將GPT模型應用於化學空間探索，以發現對特定蛋白質具有潛在結合能力的新分子。通過訓練180萬條蛋白質-配體結合數據，為候選藥物分子的生成提供快速高效的方法。

模型特點

大規模數據訓練

訓練了180萬條蛋白質-配體結合數據，確保模型生成分子的可靠性。

高效分子生成

能夠快速生成針對特定蛋白質的候選藥物分子。

支持配體提示

用戶可以通過輸入配體提示來引導分子生成過程。

模型能力

生成候選藥物分子

探索化學空間

蛋白質-配體結合預測

使用案例

藥物發現

靶向藥物設計

針對特定蛋白質生成潛在的小分子配體。

生成50個候選分子

🚀 DrugGPT

DrugGPT是一個基於GPT2的生成式藥物設計模型，它藉助自然語言處理技術，將GPT模型應用於化學空間探索，旨在為藥物設計帶來創新，能夠發現對特定蛋白質具有潛在結合能力的新分子。

🚀 快速開始

DrugGPT是一種基於GPT結構的生成式藥物策略，旨在通過自然語言處理技術為藥物設計帶來創新。

本項目將GPT模型應用於化學空間探索，以發現對特定蛋白質具有潛在結合能力的新分子。

DrugGPT通過對多達180萬條蛋白質 - 配體結合數據進行訓練，為生成候選藥物分子提供了一種快速有效的方法。

📦 安裝指南

克隆倉庫
```
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
```
或者，你也可以訪問我們的 GitHub倉庫，點擊 Code>Download ZIP 下載該倉庫。

創建虛擬環境

conda create -n druggpt python=3.7
conda activate druggpt

下載Python依賴項

pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel

💻 使用示例

基礎用法

使用 drug_generator.py 腳本，需要指定以下參數：

-p | --pro_seq：輸入蛋白質氨基酸序列。
-f | --fasta：輸入FASTA文件。

⚠️ 重要提示

-p 和 -f 只能指定其中一個。
-l | --ligand_prompt：輸入配體提示。
-e | --empty_input：啟用直接生成模式。
-n | --number：至少生成多少個分子。
-d | --device：使用的硬件設備，默認為 'cuda'。
-o | --output：生成分子的輸出目錄，默認為 './ligand_output/'。
-b | --batch_size：每批生成多少個分子。如果內存較低，請嘗試減小該值，默認為32。

高級用法

以下是不同場景下的使用示例：

輸入蛋白質FASTA文件

python drug_generator.py -f bcl2.fasta -n 50

輸入蛋白質氨基酸序列

python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50

提供配體提示

python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50

在Linux環境下使用

⚠️ 重要提示

如果你在Linux環境下運行，需要用單引號('')將配體提示括起來。
```
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
```

📝 如何引用本工作

DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins

Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han

bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

📄 許可證

GNU通用公共許可證v3.0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫