Isoformer開源模型 - 準確預測差異轉錄本表達，性能遠超現有方法

首頁

Isoformer

由InstaDeepAI開發

Isoformer 是一個能夠準確預測差異轉錄本表達的模型，其性能優於現有方法，並充分利用了多模態數據。

蛋白質模型

Transformers

#多模態轉錄本預測 #基因組表達分析 #跨模態知識遷移

下載量 165

發布時間 : 5/13/2024

模型概述

Isoformer 是一個用於預測差異轉錄本表達的模型，通過整合DNA、RNA和蛋白質三種模態的數據，實現了高效的基因表達預測。

模型特點

多模態數據整合

整合DNA、RNA和蛋白質三種模態的數據，提升預測準確性。

高效知識遷移

從三個預訓練編碼器（Enformer、Nucleotide Transformer v2和ESM2）高效遷移知識。

高性能預測

在差異轉錄本表達預測任務上優於現有方法。

模型能力

基因表達預測

多模態數據整合

轉錄本表達分析

使用案例

基因組學研究

差異轉錄本表達預測

預測不同組織或條件下的轉錄本表達差異。

優於現有方法的預測準確性。

🚀 Isoformer

Isoformer 是一個能夠準確預測差異轉錄表達的模型，它超越了現有方法，並充分利用了多種模態的數據。該框架能夠從三個預訓練編碼器中高效地遷移知識，這些編碼器分別是用於 DNA 模態的 Enformer、用於 RNA 模態的 Nucleotide Transformer v2 以及用於蛋白質模態的 ESM2。

標籤與數據集

屬性	詳情
標籤	DNA、RNA、蛋白質、生物學、基因組學
數據集	InstaDeepAI/multi_omics_transcript_expression

開發者

由 InstaDeep 開發。

🚀 快速開始

下面是一個簡單的代碼片段，用於根據 DNA、RNA 和蛋白質序列獲取嵌入向量和基因表達預測結果。

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
import numpy as np
import torch

# Import the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained("InstaDeepAI/isoformer", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("InstaDeepAI/isoformer",trust_remote_code=True)

protein_sequences = ["RSRSRSRSRSRSRSRSRSRSRL" * 9]
rna_sequences = ["ATTCCGGTTTTCA" * 9]
sequence_length = 196_608
rng = np.random.default_rng(seed=0)
dna_sequences = ["".join(rng.choice(list("ATCGN"), size=(sequence_length,)))]

torch_tokens = tokenizer(
    dna_input=dna_sequences, rna_input=rna_sequences, protein_input=protein_sequences
)
dna_torch_tokens = torch.tensor(torch_tokens[0]["input_ids"])
rna_torch_tokens = torch.tensor(torch_tokens[1]["input_ids"])
protein_torch_tokens = torch.tensor(torch_tokens[2]["input_ids"])

torch_output = model.forward(
    tensor_dna=dna_torch_tokens,
    tensor_rna=rna_torch_tokens,
    tensor_protein=protein_torch_tokens,
    attention_mask_rna=rna_torch_tokens != 1,
    attention_mask_protein=protein_torch_tokens != 1,
)

print(f"Gene expression predictions: {torch_output['gene_expression_predictions']}")
print(f"Final DNA embedding: {torch_output['final_dna_embeddings']}")