PlantCaduceus_l32開源DNA語言模型 - 助力學習植物DNA進化保守性及語法

首頁

Plantcaduceus L32

由kuleshov-group開發

PlantCaduceus是基於16種被子植物基因組預訓練的DNA語言模型，採用Caduceus和Mamba架構，通過掩碼語言建模目標學習進化保守性和DNA序列語法。

分子模型

Transformers

開源協議:Apache-2.0 #植物基因組建模 #DNA序列預測 #跨物種學習

下載量 3,340

發布時間 : 5/19/2024

模型概述

PlantCaduceus是一個DNA語言模型，旨在從16個物種的基因組中學習進化保守性和DNA序列語法，適用於基因組分析和預測任務。

模型特點

多物種基因組預訓練

基於16種被子植物基因組進行預訓練，涵蓋1.6億年演化歷史。

多種參數規模

提供從2000萬到2.25億參數的不同規模模型，滿足不同計算需求。

進化保守性學習

通過學習進化保守性和DNA序列語法，提升基因組分析能力。

模型能力

DNA序列分析

基因組預測

進化保守性學習

使用案例

基因組研究

基因組序列分析

分析DNA序列的語法和結構特徵。

進化保守性預測

預測基因組中的進化保守區域。

🚀 PlantCaduceus - 植物DNA語言模型

PlantCaduceus是一個基於16種被子植物基因組進行預訓練的DNA語言模型。它利用Caduceus和Mamba架構以及掩碼語言建模目標，旨在從跨越1.6億年曆史的16個物種中學習進化保守性和DNA序列語法。

🚀 快速開始

PlantCaduceus提供了一系列不同參數規模的模型，可根據具體需求進行選擇。對於零樣本得分估計，強烈建議使用最大的模型 PlantCaduceus_l32。

✨ 主要特性

多物種學習：基於16種被子植物基因組進行預訓練，能夠學習到跨越1.6億年曆史的進化保守性和DNA序列語法。
多模型選擇：提供了不同參數規模的模型，可根據具體任務需求進行選擇。

📦 安裝指南

暫未提供具體的安裝步驟，你可以根據代碼示例中的依賴進行安裝，確保安裝 transformers 和 torch 庫。

💻 使用示例

基礎用法

from transformers import AutoModel, AutoModelForMaskedLM, AutoTokenizer
import torch
model_path = 'kuleshov-group/PlantCaduceus_l32'
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = AutoModelForMaskedLM.from_pretrained(model_path, trust_remote_code=True, device_map=device)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

sequence = "ATGCGTACGATCGTAG"
encoding = tokenizer.encode_plus(
            sequence,
            return_tensors="pt",
            return_attention_mask=False,
            return_token_type_ids=False
        )
input_ids = encoding["input_ids"].to(device)
with torch.inference_mode():
    outputs = model(input_ids=input_ids, output_hidden_states=True)

📚 詳細文檔

模型參數

屬性	詳情
模型類型	PlantCaduceus系列模型，包括PlantCaduceus_l20、PlantCaduceus_l24、PlantCaduceus_l28和PlantCaduceus_l32
訓練數據	16種被子植物基因組

模型選擇建議

對於零樣本得分估計，建議使用最大的模型 PlantCaduceus_l32。

📄 許可證

本項目採用Apache-2.0許可證。

📚 引用信息

如果你使用了本模型，請引用以下論文：

@article {Zhai2024.06.04.596709,
	author = {Zhai, Jingjing and Gokaslan, Aaron and Schiff, Yair and Berthel, Ana and Liu, Zong-Yan and Miller, Zachary R and Scheben, Armin and Stitzer, Michelle C and Romay, Cinta and Buckler, Edward S. and Kuleshov, Volodymyr},
	title = {Cross-species plant genomes modeling at single nucleotide resolution using a pre-trained DNA language model},
	elocation-id = {2024.06.04.596709},
	year = {2024},
	doi = {10.1101/2024.06.04.596709},
	URL = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709},
	eprint = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709.full.pdf},
	journal = {bioRxiv}
}