ankh3-xl开源蛋白质语言模型 - 免费实现蛋白质特征提取与序列分析

首页

Ankh3 Xl

由 ElnaggarLab 开发

Ankh3是一个基于T5架构的蛋白质语言模型，通过联合优化掩码语言建模和序列补全任务进行预训练，适用于蛋白质特征提取和序列分析。

蛋白质模型

Transformers

#蛋白质序列补全 #掩码语言建模 #生物特征提取

下载量 131

发布时间 : 9/29/2024

模型简介

Ankh3是一个先进的蛋白质语言模型，专门设计用于处理蛋白质序列数据。它通过两种联合优化的预训练任务（掩码语言建模和序列补全）学习蛋白质的深层表示，可用于蛋白质特征提取、序列分析和结构预测等任务。

模型特点

双任务联合优化

同时优化掩码语言建模和序列补全两个任务，增强模型对蛋白质序列的理解能力

灵活的序列处理

支持通过不同前缀([NLU]/[S2S])处理不同任务，适应多种蛋白质分析场景

大规模预训练

基于UniRef50数据集进行预训练，学习广泛的蛋白质序列特征

模型能力

蛋白质特征提取

蛋白质序列补全

蛋白质序列表示学习

使用案例

蛋白质研究

蛋白质特征提取

提取蛋白质序列的深层表示，用于下游分析任务

获得包含语义信息的蛋白质序列嵌入

蛋白质序列补全

根据已知部分序列预测完整蛋白质序列

生成与输入序列连贯的蛋白质序列补全

🚀 Ankh3蛋白质语言模型

Ankh3是一个蛋白质语言模型，它在两个目标上进行了联合优化，可用于特征提取，为蛋白质相关研究提供支持。

🚀 快速开始

模型信息

属性	详情
库名称	transformers
许可证	cc - by - nc - sa - 4.0
任务类型	特征提取
模型类型	蛋白质语言模型
训练数据	UniRef50

模型细节

Ankh3是一个蛋白质语言模型，它在两个目标上进行了联合优化：

具有多种掩码概率的掩码语言建模
蛋白质序列补全

1. 掩码语言建模

此任务的思路是，通过对输入蛋白质序列中一定比例（X%）的单个标记（氨基酸）进行掩码处理，故意“损坏”输入的蛋白质序列，然后训练模型来重构原始序列。
以下是一个蛋白质序列在损坏前后的示例：
- 原始蛋白质序列：MKAYVLINSRGP
- 该序列将使用哨兵标记进行掩码/损坏，如下所示：损坏后的序列：M <extra_id_0> A Y <extra_id_1> L I <extra_id_2> S R G <extra_id_3>
- 解码器学习将每个哨兵标记对应到被掩码的实际氨基酸。在这个例子中：<extra_id_0> K 表示 <extra_id_0> 对应于 “K” 氨基酸，依此类推。
- 解码器输出：<extra_id_0> K <extra_id_1> V <extra_id_2> N <extra_id_3> P

2. 蛋白质序列补全

此任务的思路是将输入序列切成两段，第一段输入到编码器，解码器的任务是根据编码器输出的第一段表示，自回归地生成第二段。
以下是蛋白质序列补全的示例：
- 原始序列：MKAYVLINSRGP
- 我们将 “MKAYVL” 输入到编码器，解码器经过训练，在给定编码器提供的第一部分表示的情况下，应该输出第二部分，即：“INSRGP”

💻 使用示例

基础用法 - 嵌入提取

from transformers import T5ForConditionalGeneration, T5Tokenizer, T5EncoderModel
import torch

# Random sequence from uniprot, most likely Ankh3 saw it during pre-training.
sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"

# Make sure that you must use `T5Tokenizer` not `AutoTokenizer`.
tokenizer = T5Tokenizer.from_pretrained(ckpt)

# To use the encoder representation using the NLU prefix:
encoder_model = T5EncoderModel.from_pretrained(ckpt).eval()


# For extracting embeddings, consider trying the '[S2S]' prefix.
# Since this prefix was specifically used to denote sequence completion
# during the model's pre-training, its use can sometimes
# lead to improved embedding quality.

nlu_sequence = "[NLU]" + sequence
encoded_nlu_sequence = tokenizer(nlu_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)

with torch.no_grad():
  embedding = encoder_model(**encoded_nlu_sequence)

高级用法 - 序列补全

from transformers import T5ForConditionalGeneration, T5Tokenizer
from transformers.generation import GenerationConfig
import torch

sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"
tokenizer = T5Tokenizer.from_pretrained(ckpt)
# To use the sequence to sequence task using the S2S prefix:
model = T5ForConditionalGeneration.from_pretrained(ckpt).eval()


half_length = int(len(sequence) * 0.5)
s2s_sequence = "[S2S]" + sequence[:half_length]
encoded_s2s_sequence = tokenizer(s2s_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)
# + 1 to account for the start of sequence token.
gen_config = GenerationConfig(min_length=half_length + 1, max_length=half_length + 1, do_sample=False, num_beams=1)
generated_sequence = model.generate(encoded_s2s_sequence["input_ids"], gen_config, )
predicted_sequence = sequence[:half_length] + tokenizer.batch_decode(generated_sequence)[0]