D

Distilprotbert

Developed by yarongef
ProtBert-UniRef100模型的蒸餾版本,用於蛋白質特徵提取和下游任務微調
Downloads 1,965
Release Time : 3/30/2022

Model Overview

DistilProtBert是一個蒸餾蛋白質語言模型,通過掩碼語言建模目標進行預訓練,適用於大寫字母的氨基酸序列。

Model Features

蒸餾模型
從ProtBert-UniRef100模型蒸餾而來,參數量減少但保持高性能
高效預訓練
使用交叉熵、餘弦師生損失和MLM目標進行預訓練
大寫字母氨基酸支持
專門針對大寫字母的氨基酸序列優化

Model Capabilities

蛋白質特徵提取
蛋白質序列分類
蛋白質結構預測

Use Cases

生物信息學
二級結構預測
預測蛋白質的二級結構(3態)
在CASP12、TS115和CB513數據集上分別達到72、81和79的準確率
膜蛋白預測
預測蛋白質是否為膜蛋白
在DeepLoc數據集上達到86的準確率
蛋白質真實性檢測
區分真實蛋白質與其隨機重排版本
在單重排、雙重排和三重排任務中AUC分別達到0.92、0.91和0.87
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase