GO言語のオープンソースモデル - 無料でタンパク質の遺伝子オントロジーをコード化し、遺伝子の類似性と機能用語の比較を探索する

ホーム

GO Language

damlabによって開発

本モデルはタンパク質の遺伝子オントロジー定義をベクトル表現にエンコードし、遺伝子レベルの類似性や機能用語間の比較を探求することを目的としています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #遺伝子オントロジーコード #タンパク質機能予測 #BERTスタイルのマスク学習

ダウンロード数 25

リリース時間 : 4/8/2022

モデル概要

このモデルはBERTスタイルのマスク言語学習技術を使用し、訓練データはモデル生物の遺伝子オントロジー用語セットから取得され、PROT-BERTとGO-Language間の翻訳モデルとして設計されており、新規遺伝子の機能予測に役立ちます。

モデル特徴

遺伝子オントロジー用語エンコーディング

遺伝子オントロジー用語とその注釈説明をベクトル表現にエンコードし、機能比較と分析を容易にします。

マスク言語学習

15%のマスク率でBERTスタイルの訓練を行い、欠損した遺伝子オントロジー用語を予測できます。

クロスモデル翻訳

PROT-BERTとGO-Language間の翻訳用に設計されており、新規遺伝子の機能予測をサポートします。

モデル能力

遺伝子オントロジー用語予測

機能類似性分析

生物学的用語ベクトル表現

使用事例

バイオインフォマティクス

新規遺伝子機能予測

モデルを通じて未知の遺伝子が関与する可能性のある生物学的プロセスや分子機能を予測します。

候補機能リストと信頼度スコアを提供可能

機能類似性分析

異なる遺伝子のGO用語ベクトル表現を比較し、機能類似性を評価します。

🚀 GO-Languageモデル

このモデルは、タンパク質の遺伝子オントロジー定義をベクトル表現としてエンコードする方法として構築されました。モデル生物からの遺伝子オントロジー用語のコレクションでトレーニングされ、新規遺伝子の機能予測に役立つ翻訳モデルとして使用されます。

🚀 クイックスタート

このセクションでは、GO-Languageモデルの概要や使用方法、トレーニング手順などの基本的な情報を提供します。

✨ 主な機能

遺伝子オントロジー定義をベクトル表現としてエンコードすることができます。
遺伝子レベルの類似性の探索や機能用語間の比較が可能です。
BERTスタイルのマスク言語学習器であり、マスクされた位置の最も可能性の高いトークンを特定できます。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを使用しています。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

unmasker = pipeline("fill-mask", model="damlab/GO-language")

unmasker("involved_in [MASK] involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372")

[{'score': 0.1040298342704773,
  'token': 103,
  'token_str': 'GO:0002250',
  'sequence': 'involved_in GO:0002250 involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372'},
 {'score': 0.018045395612716675,
  'token': 21,
  'token_str': 'GO:0005576',
  'sequence': 'involved_in GO:0005576 involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372'},
 {'score': 0.015035462565720081,
  'token': 50,
  'token_str': 'GO:0000139',
  'sequence': 'involved_in GO:0000139 involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372'},
 {'score': 0.01181247178465128,
  'token': 37,
  'token_str': 'GO:0007165',
  'sequence': 'involved_in GO:0007165 involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372'},
 {'score': 0.01000668853521347,
  'token': 14,
  'token_str': 'GO:0005737',
  'sequence': 'involved_in GO:0005737 involved_in GO:0007165 located_in GO:0042470 involved_in GO:0070372'}
]

📚 ドキュメント

モデルの概要

このモデルは、タンパク質の遺伝子オントロジー定義をベクトル表現としてエンコードする方法として構築されました。モデル生物からの遺伝子オントロジー用語のコレクションでトレーニングされ、各機能はID番号でソートされ、注釈説明（is_a, enables, located_inなど）と組み合わされました。モデルは、各説明とGO用語が独自のトークンとなるようにトークン化されています。

想定される用途と制限

このモデルは、遺伝子オントロジー機能の有用なカプセル化です。遺伝子レベルの類似性の探索や機能用語間の比較が可能です。

トレーニングデータ

データセットは、damlab/uniprotを使用してランダムな初期モデルからトレーニングされました。遺伝子オントロジー機能は、注釈用語とともに（ID番号で）ソートされました。

トレーニング手順

前処理

すべての文字列が連結され、トレーニング用に256トークンのチャンクに分割されました。ランダムに20％のチャンクが検証用に取り置かれました。

トレーニング

トレーニングは、HuggingFaceのトレーニングモジュールを使用して、15％のマスキング率でMaskedLMデータローダーを使用して行われました。学習率はE-5に設定され、50Kのウォームアップステップとcosine_with_restarts学習率スケジュールが使用され、ホールドアウトデータセットの損失が3連続エポック改善しなくなるまで続けられました。