P

Prot T5 Xl Uniref50

由 Rostlab 开发
基于T5-3B架构的蛋白质序列预训练模型,通过自监督学习捕捉蛋白质的生物物理特性
下载量 78.45k
发布时间 : 3/2/2022

模型简介

该模型采用掩码语言建模目标在UniRef50数据集上预训练,能够从蛋白质序列中提取有意义的生物特征表示,适用于蛋白质结构预测和功能分析等任务

模型特点

大规模预训练
在包含4500万条蛋白质序列的UniRef50数据集上进行预训练
生物物理特性捕捉
模型学习到的特征能够反映决定蛋白质三维构象的重要生物物理特性
双用途设计
既支持直接特征提取,也可针对特定下游任务进行微调
高效掩码策略
采用15%氨基酸随机掩码策略,其中90%替换为[MASK],10%替换为随机氨基酸

模型能力

蛋白质序列特征提取
蛋白质二级结构预测
亚细胞定位预测
膜蛋白检测
蛋白质功能预测

使用案例

结构生物学
蛋白质二级结构预测
预测蛋白质的3态或8态二级结构
在CASP12数据集上达到81%准确率(3态)
细胞生物学
亚细胞定位预测
预测蛋白质在细胞内的定位位置
在DeepLoc数据集上达到81%准确率
膜蛋白检测
区分膜结合蛋白与水溶性蛋白
在DeepLoc数据集上达到91%准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase