🚀 PlantCaduceus
PlantCaduceusは、16種の被子植物ゲノムで事前学習されたDNA言語モデルです。Caduceus と Mamba のアーキテクチャとマスク言語モデリングの目的を利用して、1億6000万年の歴史を持つ16種の進化的保存とDNA配列文法を学習するように設計されています。様々なパラメータサイズのPlantCaduceusモデルを学習させています。
🚀 クイックスタート
PlantCaduceusは、DNA配列の分析や予測に役立つ事前学習済みの言語モデルです。以下のセクションでは、モデルの概要、使用方法、引用情報などを説明します。
✨ 主な機能
- 16種の被子植物ゲノムで事前学習されたDNA言語モデル
- Caduceus と Mamba のアーキテクチャを利用
- マスク言語モデリングの目的で学習
- 様々なパラメータサイズのモデルを提供
📦 モデル情報
Property |
Details |
Model Type |
DNA言語モデル |
Training Data |
16種の被子植物ゲノム |
利用可能なモデルは以下の通りです:
ゼロショットスコア推定には、最大のモデル (PlantCaduceus_l32) の使用を強くおすすめします。
💻 使用例
基本的な使用法
from transformers import AutoModel, AutoModelForMaskedLM, AutoTokenizer
import torch
model_path = 'kuleshov-group/PlantCaduceus_l20'
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = AutoModelForMaskedLM.from_pretrained(model_path, trust_remote_code=True, device_map=device)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
sequence = "ATGCGTACGATCGTAG"
encoding = tokenizer.encode_plus(
sequence,
return_tensors="pt",
return_attention_mask=False,
return_token_type_ids=False
)
input_ids = encoding["input_ids"].to(device)
with torch.inference_mode():
outputs = model(input_ids=input_ids, output_hidden_states=True)
📚 引用情報
@article {Zhai2024.06.04.596709,
author = {Zhai, Jingjing and Gokaslan, Aaron and Schiff, Yair and Berthel, Ana and Liu, Zong-Yan and Miller, Zachary R and Scheben, Armin and Stitzer, Michelle C and Romay, Cinta and Buckler, Edward S. and Kuleshov, Volodymyr},
title = {Cross-species plant genomes modeling at single nucleotide resolution using a pre-trained DNA language model},
elocation-id = {2024.06.04.596709},
year = {2024},
doi = {10.1101/2024.06.04.596709},
URL = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709},
eprint = {https://www.biorxiv.org/content/early/2024/06/05/2024.06.04.596709.full.pdf},
journal = {bioRxiv}
}
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。
📞 お問い合わせ
Jingjing Zhai (jz963@cornell.edu)