🚀 Helix-mRNA-v0
Helix-mRNA是一個基於混合狀態空間和Transformer的模型,它充分利用了Mamba2狀態空間架構高效的序列處理能力,以及Transformer注意力機制的上下文理解能力,融合了這兩種方法的優勢。這些特性使其特別適合研究全長轉錄本、剪接變體和複雜的mRNA結構元素。
🚀 快速開始
Helix-mRNA模型在mRNA研究領域有著獨特的優勢,下面將為你介紹如何使用相關工具。
✨ 主要特性
- 混合架構優勢:結合了Mamba2狀態空間架構和Transformer注意力機制,兼顧高效序列處理和上下文理解。
- 單核苷酸分辨率編碼:將每個核苷酸(A、C、U、G)和模糊鹼基(N)映射到唯一整數,並引入特殊字符E表示每個密碼子的起始,最大程度保留mRNA序列的完整信息。
📦 安裝指南
運行以下命令,通過pip安裝 Helical 包:
pip install --upgrade helical
💻 使用示例
基礎用法
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
helix_mrna_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helix_mrna = HelixmRNA(configurer=helix_mrna_config)
processed_input_data = helix_mrna.process_data(input_sequences)
embeddings = helix_mrna.get_embeddings(processed_input_data)
高級用法
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
labels = [0, 2, 2, 0, 1]
helixr_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helixr_fine_tune = HelixmRNAFineTuningModel(helix_mrna_config=helixr_config, fine_tuning_head="classification", output_size=3)
train_dataset = helixr_fine_tune.process_data(input_sequences)
helixr_fine_tune.train(train_dataset=train_dataset, train_labels=labels)
outputs = helixr_fine_tune.get_outputs(train_dataset)
📚 詳細文檔
你可以在我們的 論文 中瞭解更多關於Helix-mRNA的信息。
🔧 技術細節
我們以單核苷酸分辨率對mRNA序列進行標記,將每個核苷酸(A、C、U、G)和模糊鹼基(N)映射到唯一整數,並在序列中加入特殊字符E表示每個密碼子的起始。這種細粒度的方法最大限度地提高了模型從序列中提取模式的能力。與可能將核苷酸分組或使用基於k-mer方法的較粗粒度標記方法不同,我們的單核苷酸分辨率保留了mRNA分子的完整序列信息。這種簡單而有效的編碼方案確保了在預處理階段不會丟失任何信息,使下游模型能夠直接從原始序列組成中學習。
Helix-mRNA與Transformer HELM、Transformer XE和CodonBERT的基準對比。
📄 許可證
本項目採用CC BY-NC-SA 4.0許可證。
📚 引用信息
如果你使用了相關模型或工具,請引用以下論文和軟件包:
@misc{wood2025helixmrnahybridfoundationmodel,
title={Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics},
author={Matthew Wood and Mathieu Klop and Maxime Allard},
year={2025},
eprint={2502.13785},
archivePrefix={arXiv},
primaryClass={q-bio.GN},
url={https://arxiv.org/abs/2502.13785},
}
@software{allard_2024_13135902,
author = {Helical Team},
title = {helicalAI/helical: v0.0.1-alpha10},
month = nov,
year = 2024,
publisher = {Zenodo},
version = {0.0.1a10},
doi = {10.5281/zenodo.13135902},
url = {https://doi.org/10.5281/zenodo.13135902}
}
📋 信息表格
屬性 |
詳情 |
模型類型 |
基於混合狀態空間和Transformer的模型 |
訓練數據 |
未提及 |