P

Prot T5 Xl Uniref50

由Rostlab開發
基於T5-3B架構的蛋白質序列預訓練模型,通過自監督學習捕捉蛋白質的生物物理特性
下載量 78.45k
發布時間 : 3/2/2022

模型概述

該模型採用掩碼語言建模目標在UniRef50數據集上預訓練,能夠從蛋白質序列中提取有意義的生物特徵表示,適用於蛋白質結構預測和功能分析等任務

模型特點

大規模預訓練
在包含4500萬條蛋白質序列的UniRef50數據集上進行預訓練
生物物理特性捕捉
模型學習到的特徵能夠反映決定蛋白質三維構象的重要生物物理特性
雙用途設計
既支持直接特徵提取,也可針對特定下游任務進行微調
高效掩碼策略
採用15%氨基酸隨機掩碼策略,其中90%替換為[MASK],10%替換為隨機氨基酸

模型能力

蛋白質序列特徵提取
蛋白質二級結構預測
亞細胞定位預測
膜蛋白檢測
蛋白質功能預測

使用案例

結構生物學
蛋白質二級結構預測
預測蛋白質的3態或8態二級結構
在CASP12數據集上達到81%準確率(3態)
細胞生物學
亞細胞定位預測
預測蛋白質在細胞內的定位位置
在DeepLoc數據集上達到81%準確率
膜蛋白檢測
區分膜結合蛋白與水溶性蛋白
在DeepLoc數據集上達到91%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase