🚀 CodonTransformer
CodonTransformer是一款用于密码子优化的强大工具,它能够将蛋白质序列转换为针对特定目标生物优化后的DNA序列。无论你是基因工程领域的研究人员还是从业者,CodonTransformer都提供了一套全面的功能来助力你的工作。通过利用Transformer架构和用户友好的Jupyter笔记本,它降低了密码子优化的复杂性,为你节省时间和精力。
🚀 快速开始
交互式演示
你可以点击Google Colab笔记本查看交互式演示。
代码示例
安装CodonTransformer后,你可以使用以下代码进行密码子优化预测:
import torch
from transformers import AutoTokenizer, BigBirdForMaskedLM
from CodonTransformer.CodonPrediction import predict_dna_sequence
from CodonTransformer.CodonJupyter import format_model_output
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("adibvafa/CodonTransformer")
model = BigBirdForMaskedLM.from_pretrained("adibvafa/CodonTransformer").to(device)
protein = "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG"
organism = "Escherichia coli general"
output = predict_dna_sequence(
protein=protein,
organism=organism,
device=device,
tokenizer=tokenizer,
model=model,
attention_type="original_full",
deterministic=True
)
print(format_model_output(output))
输出示例
-----------------------------
| Organism |
-----------------------------
Escherichia coli general
-----------------------------
| Input Protein |
-----------------------------
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG
-----------------------------
| Processed Input |
-----------------------------
M_UNK A_UNK L_UNK W_UNK M_UNK R_UNK L_UNK L_UNK P_UNK L_UNK L_UNK A_UNK L_UNK L_UNK A_UNK L_UNK W_UNK G_UNK P_UNK D_UNK P_UNK A_UNK A_UNK A_UNK F_UNK V_UNK N_UNK Q_UNK H_UNK L_UNK C_UNK G_UNK S_UNK H_UNK L_UNK V_UNK E_UNK A_UNK L_UNK Y_UNK L_UNK V_UNK C_UNK G_UNK E_UNK R_UNK G_UNK F_UNK F_UNK Y_UNK T_UNK P_UNK K_UNK T_UNK R_UNK R_UNK E_UNK A_UNK E_UNK D_UNK L_UNK Q_UNK V_UNK G_UNK Q_UNK V_UNK E_UNK L_UNK G_UNK G_UNK __UNK
-----------------------------
| Predicted DNA |
-----------------------------
ATGGCTTTATGGATGCGTCTGCTGCCGCTGCTGGCGCTGCTGGCGCTGTGGGGCCCGGACCCGGCGGCGGCGTTTGTGAATCAGCACCTGTGCGGCAGCCACCTGGTGGAAGCGCTGTATCTGGTGTGCGGTGAGCGCGGCTTCTTCTACACGCCCAAAACCCGCCGCGAAGCGGAAGATCTGCAGGTGGGCCAGGTGGAGCTGGGCGGCTAA
✨ 主要特性
- 能够将蛋白质序列转换为针对特定目标生物优化后的DNA序列。
- 利用Transformer架构,降低密码子优化的复杂性。
- 提供用户友好的Jupyter笔记本,方便使用。
📚 详细文档
作者信息
- Adibvafa Fallahpour1,2*
- Vincent Gureghian3*
- Guillaume J. Filion2‡
- Ariel B. Lindner3‡
- Amir Pandi3‡
1 加拿大安大略省多伦多市向量人工智能研究所
2 加拿大多伦多大学斯卡伯勒分校生物科学系
3 法国巴黎市巴黎西岱大学INSERM U1284研究与跨学科中心
* 这些作者对本文贡献相同。
‡ 通讯作者邮箱:
- guillaume.filion@utoronto.ca
- ariel.lindner@inserm.fr
- amir.pandi@cri-paris.org
额外资源
引用信息
@article{Fallahpour_Gureghian_Filion_Lindner_Pandi_2025,
title={CodonTransformer: a multispecies codon optimizer using context-aware neural networks},
volume={16},
ISSN={2041-1723},
url={https://www.nature.com/articles/s41467-025-58588-7},
DOI={10.1038/s41467-025-58588-7},
number={1},
journal={Nature Communications},
author={Fallahpour, Adibvafa and Gureghian, Vincent and Filion, Guillaume J. and Lindner, Ariel B. and Pandi, Amir},
year={2025},
month=apr,
pages={3205},
language={en}
}
📄 许可证
本项目采用Apache-2.0许可证。