A

Ankh3 Xl

由 ElnaggarLab 开发
Ankh3是一个基于T5架构的蛋白质语言模型,通过联合优化掩码语言建模和序列补全任务进行预训练,适用于蛋白质特征提取和序列分析。
下载量 131
发布时间 : 9/29/2024

模型简介

Ankh3是一个先进的蛋白质语言模型,专门设计用于处理蛋白质序列数据。它通过两种联合优化的预训练任务(掩码语言建模和序列补全)学习蛋白质的深层表示,可用于蛋白质特征提取、序列分析和结构预测等任务。

模型特点

双任务联合优化
同时优化掩码语言建模和序列补全两个任务,增强模型对蛋白质序列的理解能力
灵活的序列处理
支持通过不同前缀([NLU]/[S2S])处理不同任务,适应多种蛋白质分析场景
大规模预训练
基于UniRef50数据集进行预训练,学习广泛的蛋白质序列特征

模型能力

蛋白质特征提取
蛋白质序列补全
蛋白质序列表示学习

使用案例

蛋白质研究
蛋白质特征提取
提取蛋白质序列的深层表示,用于下游分析任务
获得包含语义信息的蛋白质序列嵌入
蛋白质序列补全
根据已知部分序列预测完整蛋白质序列
生成与输入序列连贯的蛋白质序列补全
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase