🚀 Helix-mRNA-v0
Helix-mRNA是一个基于混合状态空间和Transformer的模型,它充分利用了Mamba2状态空间架构高效的序列处理能力,以及Transformer注意力机制的上下文理解能力,融合了这两种方法的优势。这些特性使其特别适合研究全长转录本、剪接变体和复杂的mRNA结构元素。
🚀 快速开始
Helix-mRNA模型在mRNA研究领域有着独特的优势,下面将为你介绍如何使用相关工具。
✨ 主要特性
- 混合架构优势:结合了Mamba2状态空间架构和Transformer注意力机制,兼顾高效序列处理和上下文理解。
- 单核苷酸分辨率编码:将每个核苷酸(A、C、U、G)和模糊碱基(N)映射到唯一整数,并引入特殊字符E表示每个密码子的起始,最大程度保留mRNA序列的完整信息。
📦 安装指南
运行以下命令,通过pip安装 Helical 包:
pip install --upgrade helical
💻 使用示例
基础用法
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
helix_mrna_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helix_mrna = HelixmRNA(configurer=helix_mrna_config)
processed_input_data = helix_mrna.process_data(input_sequences)
embeddings = helix_mrna.get_embeddings(processed_input_data)
高级用法
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
labels = [0, 2, 2, 0, 1]
helixr_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helixr_fine_tune = HelixmRNAFineTuningModel(helix_mrna_config=helixr_config, fine_tuning_head="classification", output_size=3)
train_dataset = helixr_fine_tune.process_data(input_sequences)
helixr_fine_tune.train(train_dataset=train_dataset, train_labels=labels)
outputs = helixr_fine_tune.get_outputs(train_dataset)
📚 详细文档
你可以在我们的 论文 中了解更多关于Helix-mRNA的信息。
🔧 技术细节
我们以单核苷酸分辨率对mRNA序列进行标记,将每个核苷酸(A、C、U、G)和模糊碱基(N)映射到唯一整数,并在序列中加入特殊字符E表示每个密码子的起始。这种细粒度的方法最大限度地提高了模型从序列中提取模式的能力。与可能将核苷酸分组或使用基于k-mer方法的较粗粒度标记方法不同,我们的单核苷酸分辨率保留了mRNA分子的完整序列信息。这种简单而有效的编码方案确保了在预处理阶段不会丢失任何信息,使下游模型能够直接从原始序列组成中学习。
Helix-mRNA与Transformer HELM、Transformer XE和CodonBERT的基准对比。
📄 许可证
本项目采用CC BY-NC-SA 4.0许可证。
📚 引用信息
如果你使用了相关模型或工具,请引用以下论文和软件包:
@misc{wood2025helixmrnahybridfoundationmodel,
title={Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics},
author={Matthew Wood and Mathieu Klop and Maxime Allard},
year={2025},
eprint={2502.13785},
archivePrefix={arXiv},
primaryClass={q-bio.GN},
url={https://arxiv.org/abs/2502.13785},
}
@software{allard_2024_13135902,
author = {Helical Team},
title = {helicalAI/helical: v0.0.1-alpha10},
month = nov,
year = 2024,
publisher = {Zenodo},
version = {0.0.1a10},
doi = {10.5281/zenodo.13135902},
url = {https://doi.org/10.5281/zenodo.13135902}
}
📋 信息表格
属性 |
详情 |
模型类型 |
基于混合状态空间和Transformer的模型 |
训练数据 |
未提及 |