ankh3-xl開源蛋白質語言模型 - 免費實現蛋白質特徵提取與序列分析

首頁

Ankh3 Xl

由ElnaggarLab開發

Ankh3是一個基於T5架構的蛋白質語言模型，通過聯合優化掩碼語言建模和序列補全任務進行預訓練，適用於蛋白質特徵提取和序列分析。

蛋白質模型

Transformers

#蛋白質序列補全 #掩碼語言建模 #生物特徵提取

下載量 131

發布時間 : 9/29/2024

模型概述

Ankh3是一個先進的蛋白質語言模型，專門設計用於處理蛋白質序列數據。它通過兩種聯合優化的預訓練任務（掩碼語言建模和序列補全）學習蛋白質的深層表示，可用於蛋白質特徵提取、序列分析和結構預測等任務。

模型特點

雙任務聯合優化

同時優化掩碼語言建模和序列補全兩個任務，增強模型對蛋白質序列的理解能力

靈活的序列處理

支持通過不同前綴([NLU]/[S2S])處理不同任務，適應多種蛋白質分析場景

大規模預訓練

基於UniRef50數據集進行預訓練，學習廣泛的蛋白質序列特徵

模型能力

蛋白質特徵提取

蛋白質序列補全

蛋白質序列表示學習

使用案例

蛋白質研究

蛋白質特徵提取

提取蛋白質序列的深層表示，用於下游分析任務

獲得包含語義信息的蛋白質序列嵌入

蛋白質序列補全

根據已知部分序列預測完整蛋白質序列

生成與輸入序列連貫的蛋白質序列補全

🚀 Ankh3蛋白質語言模型

Ankh3是一個蛋白質語言模型，它在兩個目標上進行了聯合優化，可用於特徵提取，為蛋白質相關研究提供支持。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
許可證	cc - by - nc - sa - 4.0
任務類型	特徵提取
模型類型	蛋白質語言模型
訓練數據	UniRef50

模型細節

Ankh3是一個蛋白質語言模型，它在兩個目標上進行了聯合優化：

具有多種掩碼概率的掩碼語言建模
蛋白質序列補全

1. 掩碼語言建模

此任務的思路是，通過對輸入蛋白質序列中一定比例（X%）的單個標記（氨基酸）進行掩碼處理，故意“損壞”輸入的蛋白質序列，然後訓練模型來重構原始序列。
以下是一個蛋白質序列在損壞前後的示例：
- 原始蛋白質序列：MKAYVLINSRGP
- 該序列將使用哨兵標記進行掩碼/損壞，如下所示：損壞後的序列：M <extra_id_0> A Y <extra_id_1> L I <extra_id_2> S R G <extra_id_3>
- 解碼器學習將每個哨兵標記對應到被掩碼的實際氨基酸。在這個例子中：<extra_id_0> K 表示 <extra_id_0> 對應於 “K” 氨基酸，依此類推。
- 解碼器輸出：<extra_id_0> K <extra_id_1> V <extra_id_2> N <extra_id_3> P

2. 蛋白質序列補全

此任務的思路是將輸入序列切成兩段，第一段輸入到編碼器，解碼器的任務是根據編碼器輸出的第一段表示，自迴歸地生成第二段。
以下是蛋白質序列補全的示例：
- 原始序列：MKAYVLINSRGP
- 我們將 “MKAYVL” 輸入到編碼器，解碼器經過訓練，在給定編碼器提供的第一部分表示的情況下，應該輸出第二部分，即：“INSRGP”

💻 使用示例

基礎用法 - 嵌入提取

from transformers import T5ForConditionalGeneration, T5Tokenizer, T5EncoderModel
import torch

# Random sequence from uniprot, most likely Ankh3 saw it during pre-training.
sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"

# Make sure that you must use `T5Tokenizer` not `AutoTokenizer`.
tokenizer = T5Tokenizer.from_pretrained(ckpt)

# To use the encoder representation using the NLU prefix:
encoder_model = T5EncoderModel.from_pretrained(ckpt).eval()


# For extracting embeddings, consider trying the '[S2S]' prefix.
# Since this prefix was specifically used to denote sequence completion
# during the model's pre-training, its use can sometimes
# lead to improved embedding quality.

nlu_sequence = "[NLU]" + sequence
encoded_nlu_sequence = tokenizer(nlu_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)

with torch.no_grad():
  embedding = encoder_model(**encoded_nlu_sequence)

高級用法 - 序列補全

from transformers import T5ForConditionalGeneration, T5Tokenizer
from transformers.generation import GenerationConfig
import torch

sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"
tokenizer = T5Tokenizer.from_pretrained(ckpt)
# To use the sequence to sequence task using the S2S prefix:
model = T5ForConditionalGeneration.from_pretrained(ckpt).eval()


half_length = int(len(sequence) * 0.5)
s2s_sequence = "[S2S]" + sequence[:half_length]
encoded_s2s_sequence = tokenizer(s2s_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)
# + 1 to account for the start of sequence token.
gen_config = GenerationConfig(min_length=half_length + 1, max_length=half_length + 1, do_sample=False, num_beams=1)
generated_sequence = model.generate(encoded_s2s_sequence["input_ids"], gen_config, )
predicted_sequence = sequence[:half_length] + tokenizer.batch_decode(generated_sequence)[0]