🚀 ESM2タンパク質機能呼び出しツール
本プロジェクトは、進化尺度モデル(ESM)に基づくタンパク質機能予測ツールです。遺伝子オントロジー(GO)を利用して、アミノ酸配列に基づいてタンパク質の機能を高精度に予測することができます。このモデルはESM2 Transformerアーキテクチャに基づいており、UniRef50で事前学習され、AmiGOデータセットで微調整されています。特定のタンパク質配列のGOサブグラフを予測し、タンパク質の分子機能、関与する生物学的プロセス、および細胞内での活動位置を詳細に理解することができます。
⚠️ 重要提示
このバージョンは、遺伝子オントロジーの分子機能
サブグラフのみをモデリングしています。
🚀 クイックスタート
コードリポジトリ
このプロジェクトのコードリポジトリは、以下のリンクから取得できます。
https://github.com/andrewdalpino/esm2-function-classifier
✨ 主な機能
- 高精度な予測:遺伝子オントロジー(GO)とアミノ酸配列に基づいて、タンパク質の分子機能を正確に予測します。
- 先進的なアーキテクチャ:ESM2 Transformerアーキテクチャを採用し、事前学習と微調整の過程でモデルの有効性を保証します。
- 多面的な洞察:タンパク質の分子レベルでの機能、関与する生物学的プロセス、および細胞内での位置情報を提供します。
📚 ドキュメント
GO用語とは何ですか?
「遺伝子オントロジー(GO)は、遺伝子と遺伝子産物の生物学的機能をさまざまな抽象レベルで記述する概念階層です(Ashburnerら、2000)。これは、タンパク質機能の多面性を記述する優れたモデルです。」
「GOは有向非巡回グラフです。グラフのノードは機能記述子(用語またはカテゴリ)であり、さまざまな関係(is_a、part_ofなど)で相互に接続されています。たとえば、用語「タンパク質結合活性」と「結合活性」はis_a関係で接続されています。ただし、グラフのエッジは通常、結合からタンパク質結合に向かって逆方向になっています。このグラフには、それぞれのルートノードによって定義される3つのサブグラフ(サブ本体)が含まれています:分子機能(MF)、生物学的プロセス(BP)、および細胞成分(CC)。生物学的には、各サブグラフはタンパク質機能の異なる側面を表しています:分子レベルでの作用(MF)、関与する生物学的プロセス(BP)、および細胞内での位置(CC)。」
以上の内容はCAFA 5タンパク質機能予測から引用されています。
モデル仕様
属性 |
詳細 |
語彙サイズ |
33 |
埋め込み次元 |
480 |
アテンションヘッド |
20 |
エンコーダ層数 |
12 |
コンテキスト長 |
1026 |
💻 使用例
基本的な使用法
以下のコードは、特定の配列のGO用語を並べ替える方法を示しています。より高度な例については、predict-subgraph.pyソースファイルを参照してください。
import torch
from transformers import EsmTokenizer, EsmForSequenceClassification
model_name = "andrewdalpino/ESM2-35M-Protein-Molecular-Function"
tokenizer = EsmTokenizer.from_pretrained(model_name)
model = EsmForSequenceClassification.from_pretrained(model_name)
model.eval()
sequence = "MCNAWYISVDFEKNREDKSKCIHTRRNSGPKLLEHVMYEVLRDWYCLEGENVYMM"
top_k = 10
out = tokenizer(sequence)
input_ids = out["input_ids"]
input_ids = torch.tensor(input_ids, dtype=torch.int64).unsqueeze(0)
with torch.no_grad():
outputs = model.forward(input_ids)
probabilities = torch.sigmoid(outputs.logits.squeeze(0))
probabilities, indices = torch.topk(probabilities, top_k)
probabilities = probabilities.tolist()
terms = [model.config.id2label[index] for index in indices.tolist()]
print(f"Top {top_k} GO Terms:")
for term, probability in zip(terms, probabilities):
print(f"{probability:.4f}: {term}")
📄 参考文献
- A. Rives, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences, 2021.
- Z. Lin, et al. Evolutionary-scale prediction of atomic level protein structure with a language model, 2022.
- G. A. Merino, et al. Hierarchical deep learning for predicting GO annotations by integrating protein knowledge, 2022.
- M. Ashburner, et al. Gene Ontology: tool for the unification of biology, 2000.