ankh3-xlオープンソースタンパク質言語モデル - 無料でタンパク質の特徴抽出と配列分析を実現

ホーム

Ankh3 Xl

ElnaggarLabによって開発

Ankh3はT5アーキテクチャに基づくタンパク質言語モデルで、マスク言語モデリングと配列補完タスクを連合最適化することで事前学習され、タンパク質の特徴抽出と配列分析に適しています。

タンパク質モデル

Transformers

#タンパク質配列の補完 #マスク言語モデリング #生物学的特徴抽出

ダウンロード数 131

リリース時間 : 9/29/2024

モデル概要

Ankh3は、タンパク質配列データを処理するために特別に設計された先進的なタンパク質言語モデルです。2つの連合最適化された事前学習タスク（マスク言語モデリングと配列補完）を通じてタンパク質の深層表現を学習し、タンパク質の特徴抽出、配列分析、構造予測などのタスクに使用できます。

モデル特徴

二つのタスクの連合最適化

マスク言語モデリングと配列補完の2つのタスクを同時に最適化し、モデルのタンパク質配列に対する理解能力を強化します。

柔軟な配列処理

異なる接頭辞([NLU]/[S2S])を通じて異なるタスクを処理することをサポートし、さまざまなタンパク質分析シナリオに適応します。

大規模事前学習

UniRef50データセットに基づいて事前学習され、広範なタンパク質配列の特徴を学習します。

モデル能力

タンパク質特徴抽出

タンパク質配列補完

タンパク質配列表現学習

使用事例

タンパク質研究

タンパク質特徴抽出

タンパク質配列の深層表現を抽出し、下流の分析タスクに使用します。

意味情報を含むタンパク質配列の埋め込みを取得します。

タンパク質配列補完

既知の部分配列に基づいて完全なタンパク質配列を予測します。

入力配列と連続したタンパク質配列の補完を生成します。

🚀 Ankh3タンパク質言語モデル

Ankh3はタンパク質言語モデルで、2つの目標に対して同時に最適化されています。特徴抽出に使用でき、タンパク質関連の研究を支援します。

🚀 クイックスタート

モデル情報

属性	詳細
ライブラリ名	transformers
ライセンス	cc - by - nc - sa - 4.0
タスクタイプ	特徴抽出
モデルタイプ	タンパク質言語モデル
学習データ	UniRef50

モデルの詳細

Ankh3はタンパク質言語モデルで、2つの目標に対して同時に最適化されています。

様々なマスク確率を持つマスク言語モデリング
タンパク質配列の補完

1. マスク言語モデリング

このタスクの考え方は、入力されたタンパク質配列の一定割合（X%）の単一トークン（アミノ酸）をマスク処理することで、入力のタンパク質配列を意図的に「損傷」させ、その後モデルを訓練して元の配列を再構築することです。
以下は、タンパク質配列が損傷する前後の例です。
- 元のタンパク質配列：MKAYVLINSRGP
- この配列は、以下のようにセンチネルトークンを使用してマスク/損傷されます。損傷後の配列：M <extra_id_0> A Y <extra_id_1> L I <extra_id_2> S R G <extra_id_3>
- デコーダは、各センチネルトークンをマスクされた実際のアミノ酸に対応付けるように学習します。この例では、<extra_id_0> K は <extra_id_0> が「K」アミノ酸に対応することを意味し、以下同様です。
- デコーダの出力：<extra_id_0> K <extra_id_1> V <extra_id_2> N <extra_id_3> P

2. タンパク質配列の補完

このタスクの考え方は、入力配列を2つの部分に分割し、最初の部分をエンコーダに入力し、デコーダのタスクは、エンコーダが出力した最初の部分の表現に基づいて、2番目の部分を自己回帰的に生成することです。
以下は、タンパク質配列の補完の例です。
- 元の配列：MKAYVLINSRGP
- 「MKAYVL」をエンコーダに入力し、デコーダは、エンコーダが提供する最初の部分の表現を与えられた場合、2番目の部分「INSRGP」を出力するように訓練されます。

💻 使用例

基本的な使用法 - 埋め込み抽出

from transformers import T5ForConditionalGeneration, T5Tokenizer, T5EncoderModel
import torch

# Random sequence from uniprot, most likely Ankh3 saw it during pre-training.
sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"

# Make sure that you must use `T5Tokenizer` not `AutoTokenizer`.
tokenizer = T5Tokenizer.from_pretrained(ckpt)

# To use the encoder representation using the NLU prefix:
encoder_model = T5EncoderModel.from_pretrained(ckpt).eval()


# For extracting embeddings, consider trying the '[S2S]' prefix.
# Since this prefix was specifically used to denote sequence completion
# during the model's pre-training, its use can sometimes
# lead to improved embedding quality.

nlu_sequence = "[NLU]" + sequence
encoded_nlu_sequence = tokenizer(nlu_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)

with torch.no_grad():
  embedding = encoder_model(**encoded_nlu_sequence)

高度な使用法 - 配列補完

from transformers import T5ForConditionalGeneration, T5Tokenizer
from transformers.generation import GenerationConfig
import torch

sequence = "MDTAYPREDTRAPTPSKAGAHTALTLGAPHPPPRDHLIWSVFSTLYLNLCCLGFLALAYSIKARDQKVVGDLEAARRFGSKAKCYNILAAMWTLVPPLLLLGLVVTGALHLARLAKDSAAFFSTKFDDADYD"

ckpt = "ElnaggarLab/ankh3-xl"
tokenizer = T5Tokenizer.from_pretrained(ckpt)
# To use the sequence to sequence task using the S2S prefix:
model = T5ForConditionalGeneration.from_pretrained(ckpt).eval()


half_length = int(len(sequence) * 0.5)
s2s_sequence = "[S2S]" + sequence[:half_length]
encoded_s2s_sequence = tokenizer(s2s_sequence, add_special_tokens=True, return_tensors="pt", is_split_into_words=False)
# + 1 to account for the start of sequence token.
gen_config = GenerationConfig(min_length=half_length + 1, max_length=half_length + 1, do_sample=False, num_beams=1)
generated_sequence = model.generate(encoded_s2s_sequence["input_ids"], gen_config, )
predicted_sequence = sequence[:half_length] + tokenizer.batch_decode(generated_sequence)[0]