ESM2-35M-Protein-Molecular-Functionオープンソースモデル - 配列に基づいてタンパク質分子の機能を予測する

ホーム

ESM2 35M Protein Molecular Function

andrewdalpinoによって開発

進化尺度モデル（ESM）に基づくタンパク質機能予測ツールで、アミノ酸配列を通じてタンパク質の分子機能を予測します。

タンパク質モデル

Transformers

#タンパク質分子機能予測 #遺伝子オントロジー分析 #ESM2アーキテクチャ

ダウンロード数 254

リリース時間 : 5/12/2025

モデル概要

このモデルはESM2 Transformerアーキテクチャに基づいており、UniRef50で事前学習され、AmiGOデータセットで微調整されています。タンパク質の遺伝子オントロジー（GO）サブグラフを予測でき、分子機能予測に特化しています。

モデル特徴

高精度予測

遺伝子オントロジー（GO）とアミノ酸配列に基づいて、タンパク質の分子機能を正確に予測します。

先進的なアーキテクチャ

ESM2 Transformerアーキテクチャを採用し、事前学習と微調整を行って、モデルの有効性を保証します。

多面的な洞察

タンパク質の分子レベルでの機能、関与する生物学的プロセス、および細胞内での位置情報を提供します。

モデル能力

タンパク質分子機能予測

遺伝子オントロジー（GO）サブグラフ予測

使用事例

バイオインフォマティクス

タンパク質機能注釈

アミノ酸配列に基づいてタンパク質の分子機能を予測し、機能注釈に利用します。

タンパク質のGO用語予測結果を提供します。

タンパク質機能研究

研究者が未知のタンパク質の可能な機能を迅速に把握するのに役立ちます。

タンパク質機能の初期予測を提供し、後続の実験設計をガイドします。

🚀 ESM2タンパク質機能呼び出しツール

本プロジェクトは、進化尺度モデル（ESM）に基づくタンパク質機能予測ツールです。遺伝子オントロジー（GO）を利用して、アミノ酸配列に基づいてタンパク質の機能を高精度に予測することができます。このモデルはESM2 Transformerアーキテクチャに基づいており、UniRef50で事前学習され、AmiGOデータセットで微調整されています。特定のタンパク質配列のGOサブグラフを予測し、タンパク質の分子機能、関与する生物学的プロセス、および細胞内での活動位置を詳細に理解することができます。

⚠️ 重要提示

このバージョンは、遺伝子オントロジーの分子機能サブグラフのみをモデリングしています。

🚀 クイックスタート

コードリポジトリ

このプロジェクトのコードリポジトリは、以下のリンクから取得できます。 https://github.com/andrewdalpino/esm2-function-classifier

✨ 主な機能

高精度な予測：遺伝子オントロジー（GO）とアミノ酸配列に基づいて、タンパク質の分子機能を正確に予測します。
先進的なアーキテクチャ：ESM2 Transformerアーキテクチャを採用し、事前学習と微調整の過程でモデルの有効性を保証します。
多面的な洞察：タンパク質の分子レベルでの機能、関与する生物学的プロセス、および細胞内での位置情報を提供します。

📚 ドキュメント

GO用語とは何ですか？

「遺伝子オントロジー（GO）は、遺伝子と遺伝子産物の生物学的機能をさまざまな抽象レベルで記述する概念階層です（Ashburnerら、2000）。これは、タンパク質機能の多面性を記述する優れたモデルです。」

「GOは有向非巡回グラフです。グラフのノードは機能記述子（用語またはカテゴリ）であり、さまざまな関係（is_a、part_ofなど）で相互に接続されています。たとえば、用語「タンパク質結合活性」と「結合活性」はis_a関係で接続されています。ただし、グラフのエッジは通常、結合からタンパク質結合に向かって逆方向になっています。このグラフには、それぞれのルートノードによって定義される3つのサブグラフ（サブ本体）が含まれています：分子機能（MF）、生物学的プロセス（BP）、および細胞成分（CC）。生物学的には、各サブグラフはタンパク質機能の異なる側面を表しています：分子レベルでの作用（MF）、関与する生物学的プロセス（BP）、および細胞内での位置（CC）。」

以上の内容はCAFA 5タンパク質機能予測から引用されています。

モデル仕様

属性	詳細
語彙サイズ	33
埋め込み次元	480
アテンションヘッド	20
エンコーダ層数	12
コンテキスト長	1026

💻 使用例

基本的な使用法

以下のコードは、特定の配列のGO用語を並べ替える方法を示しています。より高度な例については、predict-subgraph.pyソースファイルを参照してください。

import torch

from transformers import EsmTokenizer, EsmForSequenceClassification

model_name = "andrewdalpino/ESM2-35M-Protein-Molecular-Function"

tokenizer = EsmTokenizer.from_pretrained(model_name)

model = EsmForSequenceClassification.from_pretrained(model_name)

model.eval()

sequence = "MCNAWYISVDFEKNREDKSKCIHTRRNSGPKLLEHVMYEVLRDWYCLEGENVYMM"

top_k = 10

out = tokenizer(sequence)

input_ids = out["input_ids"]

input_ids = torch.tensor(input_ids, dtype=torch.int64).unsqueeze(0)

with torch.no_grad():
    outputs = model.forward(input_ids)

    probabilities = torch.sigmoid(outputs.logits.squeeze(0))

    probabilities, indices = torch.topk(probabilities, top_k)

probabilities = probabilities.tolist()

terms = [model.config.id2label[index] for index in indices.tolist()]

print(f"Top {top_k} GO Terms:")

for term, probability in zip(terms, probabilities):
    print(f"{probability:.4f}: {term}")

📄 参考文献

A. Rives, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences, 2021.
Z. Lin, et al. Evolutionary-scale prediction of atomic level protein structure with a language model, 2022.
G. A. Merino, et al. Hierarchical deep learning for predicting GO annotations by integrating protein knowledge, 2022.
M. Ashburner, et al. Gene Ontology: tool for the unification of biology, 2000.