D

Distilprotbert

由yarongef開發
ProtBert-UniRef100模型的蒸餾版本,用於蛋白質特徵提取和下游任務微調
下載量 1,965
發布時間 : 3/30/2022

模型概述

DistilProtBert是一個蒸餾蛋白質語言模型,通過掩碼語言建模目標進行預訓練,適用於大寫字母的氨基酸序列。

模型特點

蒸餾模型
從ProtBert-UniRef100模型蒸餾而來,參數量減少但保持高性能
高效預訓練
使用交叉熵、餘弦師生損失和MLM目標進行預訓練
大寫字母氨基酸支持
專門針對大寫字母的氨基酸序列優化

模型能力

蛋白質特徵提取
蛋白質序列分類
蛋白質結構預測

使用案例

生物信息學
二級結構預測
預測蛋白質的二級結構(3態)
在CASP12、TS115和CB513數據集上分別達到72、81和79的準確率
膜蛋白預測
預測蛋白質是否為膜蛋白
在DeepLoc數據集上達到86的準確率
蛋白質真實性檢測
區分真實蛋白質與其隨機重排版本
在單重排、雙重排和三重排任務中AUC分別達到0.92、0.91和0.87
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase