HyenaDNA-small-32k-seqlen-hfオープンソースモデル - 長距離ゲノム分析と研究を支援する

ホーム

Hyenadna Small 32k Seqlen Hf

LongSafariによって開発

HyenaDNAは長距離ゲノム基盤モデルで、単一塩基解像度において最大100万トークンの文脈長で事前学習されています。

分子モデル

Transformers

その他オープンソースライセンス:Bsd-3-clause #単一塩基解像度 #長鎖配列モデリング #ゲノム基盤モデル

ダウンロード数 2,885

リリース時間 : 11/3/2023

モデル概要

HyenaDNAはHyena演算子に基づく長距離ゲノム基盤モデルで、単一塩基解像度で最大100万トークンの文脈長を処理できます。準二次演算により、従来のTransformerよりも効率的なゲノム配列モデリングを実現しています。

モデル特徴

超長文脈処理

最大100万トークンの文脈長をサポート、従来のTransformerモデルより500倍長い

単一塩基解像度

単一文字トークナイザーを使用して塩基レベルの精密モデリングを実現

効率的な訓練

1M配列長での訓練速度がFlash Attentionより160倍高速

グローバル受容野

暗黙的な長距離畳み込みにより各層がグローバル受容野を持つ

モデル能力

長鎖ゲノムモデリング

制御要素予測

クロマチンプロファイリング

種分類

文脈学習

指示ファインチューニング

使用事例

ゲノム研究

制御要素予測

ゲノム中の制御要素位置を予測

23の下流タスクで新たなSotAを達成

種分類

ゲノム配列に基づく種分類

生物医学研究

クロマチンプロファイリング

クロマチン構造特徴を分析

🚀 HyenaDNA

こんにちは！HyenaDNAは、最大100万トークンのコンテキスト長で、単一ヌクレオチド分解能で事前学習された長距離ゲノム基礎モデルです。

以下でモデルとトレーニングの概要をご覧いただけます。さらに、これらのリソースもチェックしてみてください。

リソース:

すべてのHuggingFaceモデルへのリンク:

すべての事前学習済みHyenaDNAチェックポイントのコレクションをアップロードしました。

異なるサイズとシーケンス長のモデルがあります。また、LongSafari組織には、各モデルの元の重みのみのバージョンもあり、元のGitHubリポジトリで読み込むように設計されています。これらのモデルは、上記のコレクション内のモデルと出力が同じで、インターフェースが異なるだけです。

各モデルのGPU要件を参照してください。

🚀 クイックスタート

HyenaDNAの使用方法

この簡単なコードサンプルでは、シーケンス分類タスクでHyenaDNAをファインチューニングする方法を示します。このサンプルでは、最大シーケンス長が16万ヌクレオチドのmediumチェックポイントを使用しています。選択したチェックポイントでサポートされる最大長より長いシーケンス長を使用すると、トレーニングは失敗します。

テストでは、Colab T4 GPU（16GB VRAM）で最大約25万ヌクレオチドのシーケンス長でトレーニングすることができました。より長いシーケンス長では、より多くのメモリが必要になります。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from transformers import TrainingArguments, Trainer, logging
import torch

# instantiate pretrained model
checkpoint = 'LongSafari/hyenadna-medium-160k-seqlen-hf'
max_length = 160_000

# bfloat16 for better speed and reduced memory usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)

# Generate some random sequence and labels
# If you're copying this code, replace the sequences and labels
# here with your own data!
sequence = 'ACTG' * int(max_length/4)
sequence = [sequence] * 8  # Create 8 identical samples
tokenized = tokenizer(sequence)["input_ids"]
labels = [0, 1] * 4

# Create a dataset for training
ds = Dataset.from_dict({"input_ids": tokenized, "labels": labels})
ds.set_format("pt")

# Initialize Trainer
# Note that we're using extremely small batch sizes to maximize
# our ability to fit long sequences in memory!
args = {
    "output_dir": "tmp",
    "num_train_epochs": 1,
    "per_device_train_batch_size": 1,
    "gradient_accumulation_steps": 4,
    "gradient_checkpointing": True,
    "learning_rate": 2e-5,
}
training_args = TrainingArguments(**args)

trainer = Trainer(model=model, args=training_args, train_dataset=ds)
result = trainer.train()

print(result)

# Now we can save_pretrained() or push_to_hub() to share the trained model!

これらのノートブックも役立つかもしれません。これらはHyenaDNAに特化したものではありませんが、DNAとシーケンス分類モデルのトレーニングの追加の例が含まれています。

GPU要件（推奨）

各モデルに使用できるハードウェア（推奨最小値）に関する提案を以下に示します。

事前学習、ファインチューニング、推論時のGPU

tiny-1k: (T4, T4, T4)
small-32k: (A100-40GB, T4, T4)
medium-160k: (A100-40GB, T4, T4)
medium-450k: (A100-40GB, A100-40GB, T4)
large-1m: (A100-80GB, A100-80GB, A100-40GB)

📚 ドキュメント

モデルとトレーニングの概要

HyenaDNAは、Hyena演算子の単純なスタックを使用しています。これは、Transformersのアテンションを2次未満で置き換えるものです。Hyena演算子は、修正された入力投影、暗黙的な畳み込み、ゲーティングなど、すべて2次未満の演算を使用することで、言語モデリングの品質を一致させることができます。

これにより、HyenaDNAは、密なアテンションを使用する従来のゲノムTransformerモデルよりも最大500倍長いコンテキスト長に到達でき、シーケンス長100万で（Flash Attentionと比較して）160倍高速にトレーニングできます。

4つのヌクレオチド（および特殊トークン）を主要な語彙とする単一文字トークナイザーを使用しているため、ゲノム基礎モデルにおいて初めて単一ヌクレオチド分解能を実現しています。さらに、暗黙的な長畳み込みにより、各レイヤーでグローバルな受容野が可能になります。

ヒト参照ゲノム（HG38）を使用して、次のトークン（ヌクレオチド）予測で事前学習を行っています。

HyenaDNAは、調節エレメントの予測、クロマチンプロファイル、種分類など、23の下流タスクで新しい最先端技術を達成しています。また、ゲノミクスにおける長いコンテキストによって開かれる新しい機能についても探索しており、ソフトプロンプト調整可能トークンを使用したインコンテキスト学習と命令ファインチューニングの最初の使用も含まれています。

HyenaDNAの詳細については、ブログをチェックしてください！

著者

Eric Nguyen*, Michael Poli*, Marjan Faizi*, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen Baccus, Chris Re.

連絡先

Eric Nguyen, etnguyen@stanford.edu
Michael Poli, poli@stanford.edu
Marjan Faizi, Marjan_Faizi@hms.harvard.edu

📄 ライセンス

このプロジェクトは、BSD 3条項ライセンスの下で公開されています。

引用

ぜひ引用してください :)

@article{nguyen2023hyenadna,
      title={HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution}, 
      author={Eric Nguyen and Michael Poli and Marjan Faizi and Armin Thomas and Callum Birch-Sykes and Michael Wornow and Aman Patel and Clayton Rabideau and Stefano Massaroli and Yoshua Bengio and Stefano Ermon and Stephen A. Baccus and Chris RÃ©},
      year={2023},
      eprint={2306.15794},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}