protein-matryoshka-embeddings開源模型 - 為蛋白質序列生成向量，加速搜索任務

首頁

Protein Matryoshka Embeddings

由monsoon-nlp開發

該模型為蛋白質序列生成嵌入向量，支持縮短版嵌入以加速搜索任務。

蛋白質模型

Transformers

開源協議:CC #蛋白質序列嵌入 #套娃損失優化 #生物信息學

下載量 2,121

發布時間 : 3/24/2024

模型概述

基於Rostlab/prot_bert_bfd的蛋白質序列嵌入模型，使用套娃損失函數訓練，適用於生物學領域的蛋白質相似度計算。

模型特點

套娃嵌入技術

支持生成不同長度的嵌入向量，可根據任務需求平衡精度與效率

專業蛋白質處理

專為IUPAC-IUB編碼的蛋白質序列優化，直接處理氨基酸序列

高性能相似度計算

在UniProt數據集上達到0.92+的餘弦相似度指標

模型能力

蛋白質序列嵌入生成

蛋白質相似度計算

生物序列特徵提取

使用案例

生物信息學

蛋白質功能預測

通過嵌入向量相似度推斷未知蛋白質的功能

蛋白質結構分類

基於序列嵌入的蛋白質二級/三級結構分類

在TAPE基準測試中表現良好

藥物研發

靶點蛋白篩選

快速篩選與目標蛋白具有相似結構的候選蛋白

🚀 蛋白質套娃嵌入模型

本項目的蛋白質套娃嵌入模型能夠為輸入的蛋白質生成嵌入向量。該模型採用套娃損失進行訓練，因此縮短後的嵌入向量可用於更快速的搜索和其他任務。

模型信息

屬性	詳情
庫名稱	sentence-transformers
模型類型	句子相似度模型
訓練數據	monsoon-nlp/protein-pairs-uniprot-swissprot
標籤	sentence-transformers、sentence-similarity、transformers、biology、protein language model
許可證	cc
基礎模型	Rostlab/prot_bert_bfd

🚀 快速開始

安裝依賴

pip install -U sentence-transformers datasets

生成嵌入向量

from sentence_transformers import SentenceTransformer
sequences = ["M S L E Q K...", "M A R N W S F R V..."]

model = SentenceTransformer('monsoon-nlp/protein-matryoshka-embeddings')
embeddings = model.encode(sentences)
print(embeddings)

📚 詳細文檔

訓練與代碼

CoLab筆記本：點擊查看
訓練過程中驗證數據集上1000個蛋白質對的結果： | 步數 | 餘弦皮爾遜係數 | 餘弦斯皮爾曼係數 | |-----|--------------|---------------| | 3000 | 0.8598688660086558 | 0.8666855900999677 | | 6000 | 0.8692703523988448 | 0.8615673651584274 | | 9000 | 0.8779733537629968 | 0.8754158959780602 | | 12000 | 0.8877422045031667 | 0.8881492475969834 | | 15000 | 0.9027359688395733 | 0.899106724739699 | | 18000 | 0.9046675789738002 | 0.9044183600191271 | | 21000 | 0.9165801536390973 | 0.9061381997421003 | | 24000 | 0.9128046401341833 | 0.9076748537082228 | | 27000 | 0.918547416546341 | 0.9127677526055185 | | 30000 | 0.9239429677657788 | 0.9187051589781693 |