Ontoprotein
遺伝子オントロジー(GO)の構造化知識を融合したタンパク質事前学習モデル。マスク言語モデリングと知識埋め込みの二目的最適化によりタンパク質配列表現を強化。
ダウンロード数 69
リリース時間 : 3/2/2022
モデル概要
遺伝子オントロジー知識をタンパク質事前学習に統合した初の汎用フレームワーク。大規模知識グラフ構築によりタンパク質とGO用語の共同埋め込み学習を実現。
モデル特徴
知識強化型事前学習
遺伝子オントロジーの構造化知識を革新的に統合、知識グラフネガティブサンプリングによる対照学習でタンパク質表現を最適化
二目的最適化
タンパク質配列のマスク言語モデリング(MLM)と知識グラフ埋め込み(KE)を同時に実施する共同訓練
大規模知識グラフ
GO用語と関連タンパク質を含む新規知識グラフを構築、全ノードはテキストまたは配列記述で表現
モデル能力
タンパク質配列表現学習
遺伝子機能予測
タンパク質-知識グラフ共同埋め込み
使用事例
生物医学研究
タンパク質機能注釈
GO知識強化型タンパク質表現を活用し未知タンパク質の機能を予測
従来手法に比べ機能予測精度が向上
タンパク質相互作用予測
知識認識型埋め込み空間でタンパク質類似度を計算
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98