🚀 CodonTransformer
CodonTransformer是一款用於密碼子優化的強大工具,它能夠將蛋白質序列轉換為針對特定目標生物優化後的DNA序列。無論你是基因工程領域的研究人員還是從業者,CodonTransformer都提供了一套全面的功能來助力你的工作。通過利用Transformer架構和用戶友好的Jupyter筆記本,它降低了密碼子優化的複雜性,為你節省時間和精力。
🚀 快速開始
交互式演示
你可以點擊Google Colab筆記本查看交互式演示。
代碼示例
安裝CodonTransformer後,你可以使用以下代碼進行密碼子優化預測:
import torch
from transformers import AutoTokenizer, BigBirdForMaskedLM
from CodonTransformer.CodonPrediction import predict_dna_sequence
from CodonTransformer.CodonJupyter import format_model_output
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("adibvafa/CodonTransformer")
model = BigBirdForMaskedLM.from_pretrained("adibvafa/CodonTransformer").to(device)
protein = "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG"
organism = "Escherichia coli general"
output = predict_dna_sequence(
protein=protein,
organism=organism,
device=device,
tokenizer=tokenizer,
model=model,
attention_type="original_full",
deterministic=True
)
print(format_model_output(output))
輸出示例
-----------------------------
| Organism |
-----------------------------
Escherichia coli general
-----------------------------
| Input Protein |
-----------------------------
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG
-----------------------------
| Processed Input |
-----------------------------
M_UNK A_UNK L_UNK W_UNK M_UNK R_UNK L_UNK L_UNK P_UNK L_UNK L_UNK A_UNK L_UNK L_UNK A_UNK L_UNK W_UNK G_UNK P_UNK D_UNK P_UNK A_UNK A_UNK A_UNK F_UNK V_UNK N_UNK Q_UNK H_UNK L_UNK C_UNK G_UNK S_UNK H_UNK L_UNK V_UNK E_UNK A_UNK L_UNK Y_UNK L_UNK V_UNK C_UNK G_UNK E_UNK R_UNK G_UNK F_UNK F_UNK Y_UNK T_UNK P_UNK K_UNK T_UNK R_UNK R_UNK E_UNK A_UNK E_UNK D_UNK L_UNK Q_UNK V_UNK G_UNK Q_UNK V_UNK E_UNK L_UNK G_UNK G_UNK __UNK
-----------------------------
| Predicted DNA |
-----------------------------
ATGGCTTTATGGATGCGTCTGCTGCCGCTGCTGGCGCTGCTGGCGCTGTGGGGCCCGGACCCGGCGGCGGCGTTTGTGAATCAGCACCTGTGCGGCAGCCACCTGGTGGAAGCGCTGTATCTGGTGTGCGGTGAGCGCGGCTTCTTCTACACGCCCAAAACCCGCCGCGAAGCGGAAGATCTGCAGGTGGGCCAGGTGGAGCTGGGCGGCTAA
✨ 主要特性
- 能夠將蛋白質序列轉換為針對特定目標生物優化後的DNA序列。
- 利用Transformer架構,降低密碼子優化的複雜性。
- 提供用戶友好的Jupyter筆記本,方便使用。
📚 詳細文檔
作者信息
- Adibvafa Fallahpour1,2*
- Vincent Gureghian3*
- Guillaume J. Filion2‡
- Ariel B. Lindner3‡
- Amir Pandi3‡
1 加拿大安大略省多倫多市向量人工智能研究所
2 加拿大多倫多大學斯卡伯勒分校生物科學系
3 法國巴黎市巴黎西岱大學INSERM U1284研究與跨學科中心
* 這些作者對本文貢獻相同。
‡ 通訊作者郵箱:
- guillaume.filion@utoronto.ca
- ariel.lindner@inserm.fr
- amir.pandi@cri-paris.org
額外資源
引用信息
@article{Fallahpour_Gureghian_Filion_Lindner_Pandi_2025,
title={CodonTransformer: a multispecies codon optimizer using context-aware neural networks},
volume={16},
ISSN={2041-1723},
url={https://www.nature.com/articles/s41467-025-58588-7},
DOI={10.1038/s41467-025-58588-7},
number={1},
journal={Nature Communications},
author={Fallahpour, Adibvafa and Gureghian, Vincent and Filion, Guillaume J. and Lindner, Ariel B. and Pandi, Amir},
year={2025},
month=apr,
pages={3205},
language={en}
}
📄 許可證
本項目採用Apache-2.0許可證。