PlantCaduceus_l20オープンソースDNA言語モデル - 植物の進化的保存性と配列文法の研究を支援

ホーム

Plantcaduceus L20

kuleshov-groupによって開発

PlantCaduceusは16種の被子植物ゲノムで事前学習されたDNA言語モデルで、CaduceusとMambaアーキテクチャを採用し、マスク言語モデリング目標を通じて進化的保存性とDNA配列文法を学習します。

分子モデル

Transformers

オープンソースライセンス:Apache-2.0 #植物ゲノムモデリング #DNA言語モデル #種間進化解析

ダウンロード数 8,967

リリース時間 : 5/19/2024

モデル概要

PlantCaduceusは植物ゲノム配列の処理と分析に特化したDNA言語モデルで、進化的保存性とDNA配列文法を学習できます。

モデル特徴

多種ゲノム事前学習

16種の被子植物ゲノムで事前学習され、1.6億年の進化史をカバーします。

多様なパラメータ規模

2000万から2.25億パラメータまでの様々な規模のモデルを提供し、異なる計算ニーズに対応します。

進化的保存性学習

DNA配列中の進化的保存性と文法規則を学習できます。

モデル能力

DNA配列解析

ゲノムマスク言語モデリング

進化的保存性予測

使用事例

ゲノム研究

DNA配列スコアリング

モデルを使用してDNA配列のゼロショットスコア推定を行います。

進化的保存性解析

異なる種のDNA配列中の保存領域を分析します。

🚀 PlantCaduceus

PlantCaduceusは、16種の被子植物ゲノムで事前学習されたDNA言語モデルです。Caduceus と Mamba のアーキテクチャとマスク言語モデリングの目的を利用して、1億6000万年の歴史を持つ16種の進化的保存とDNA配列文法を学習するように設計されています。様々なパラメータサイズのPlantCaduceusモデルを学習させています。

🚀 クイックスタート

PlantCaduceusは、DNA配列の分析や予測に役立つ事前学習済みの言語モデルです。以下のセクションでは、モデルの概要、使用方法、引用情報などを説明します。

✨ 主な機能

16種の被子植物ゲノムで事前学習されたDNA言語モデル
Caduceus と Mamba のアーキテクチャを利用
マスク言語モデリングの目的で学習
様々なパラメータサイズのモデルを提供

📦 モデル情報

Property	Details
Model Type	DNA言語モデル
Training Data	16種の被子植物ゲノム

利用可能なモデルは以下の通りです：

PlantCaduceus_l20: 20層、隠れ層サイズ384、パラメータ数20M
PlantCaduceus_l24: 24層、隠れ層サイズ512、パラメータ数40M
PlantCaduceus_l28: 28層、隠れ層サイズ768、パラメータ数112M
PlantCaduceus_l32: 32層、隠れ層サイズ1024、パラメータ数225M

ゼロショットスコア推定には、最大のモデル (PlantCaduceus_l32) の使用を強くおすすめします。

💻 使用例

基本的な使用法

from transformers import AutoModel, AutoModelForMaskedLM, AutoTokenizer
import torch
model_path = 'kuleshov-group/PlantCaduceus_l20'
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = AutoModelForMaskedLM.from_pretrained(model_path, trust_remote_code=True, device_map=device)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

sequence = "ATGCGTACGATCGTAG"
encoding = tokenizer.encode_plus(
            sequence,
            return_tensors="pt",
            return_attention_mask=False,
            return_token_type_ids=False
        )
input_ids = encoding["input_ids"].to(device)
with torch.inference_mode():
    outputs = model(input_ids=input_ids, output_hidden_states=True)

📚 引用情報

@article {Zhai2024.06.04.596709,
	author = {Zhai, Jingjing and Gokaslan, Aaron and Schiff, Yair and Berthel, Ana and Liu, Zong-Yan and Miller, Zachary R and Scheben, Armin and Stitzer, Michelle C and Romay, Cinta and Buckler, Edward S. and Kuleshov, Volodymyr},
	title = {Cross-species plant genomes modeling at single nucleotide resolution using a pre-trained DNA language model},
	elocation-id = {2024.06.04.596709},
	year = {2024},
	doi = {10.1101/2024.06.04.596709},
	URL = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709},
	eprint = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709.full.pdf},
	journal = {bioRxiv}
}