🚀 HIV_BERT模型
HIV_BERT模型是专门针对HIV相关任务对ProtBert - BFD模型进行优化训练得到的,能更精准地处理HIV相关数据,为HIV研究和预测提供有力支持。
🚀 快速开始
本模型可用于预测HIV相关序列中被掩码位置最可能的氨基酸。以下是使用示例:
from transformers import pipeline
unmasker = pipeline("fill-mask", model="damlab/HIV_FLT")
unmasker(f"C T R P N [MASK] N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
{
"score": 0.9581968188285828,
"token": 17,
"token_str": "N",
"sequence": "C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.022986575961112976,
"token": 12,
"token_str": "K",
"sequence": "C T R P N K N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003997281193733215,
"token": 14,
"token_str": "D",
"sequence": "C T R P N D N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003636382520198822,
"token": 15,
"token_str": "T",
"sequence": "C T R P N T N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.002701344434171915,
"token": 10,
"token_str": "S",
"sequence": "C T R P N S N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
}
]
✨ 主要特性
📚 详细文档
模型描述
与原始的ProtBert - BFD模型类似,该模型将每个氨基酸编码为一个单独的标记。它采用掩码语言模型(Masked Language Modeling)进行训练,即随机掩码一组标记,让模型预测这些被掩码的标记。训练时使用了damlab/HIV_FLT数据集,以256个氨基酸为一个块,掩码率为15%。
预期用途和限制
作为掩码语言模型,该工具可使用掩码方法预测预期的突变,有助于识别高度突变的序列、测序伪像或其他相关情况。同时,作为BERT模型,它也可作为迁移学习的基础,用于开发HIV特定的分类任务。
训练数据
使用damlab/HIV_FLT数据集对原始的rostlab/Prot - bert - bfd进行优化。该数据集包含来自全球的1790个完整HIV基因组,翻译后约有390万个氨基酸标记。
训练过程
预处理
与rostlab/Prot - bert - bfd模型一样,将罕见氨基酸U、Z、O和B转换为X,并在每个氨基酸之间添加空格。将所有字符串连接起来,并分割成256个标记的块进行训练。随机保留20%的块用于验证。
训练
使用HuggingFace训练模块,通过掩码语言模型(MaskedLM)数据加载器进行训练,掩码率为15%。学习率设置为E - 5,有50K个热身步骤,采用余弦重启学习率调度,直到连续3个epoch在保留的验证数据集上的损失没有改善为止。
📄 许可证
本项目采用MIT许可证。
示例数据
示例标题 |
文本 |
V3 |
C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C |
Tat |
M E P V D P R L E P W K H P G S Q P K T A C T N C Y C K K C C F H C Q V C F I T K A L G I S Y G R K K R R Q R R R A H Q N S Q T H Q A S L S K Q P T S Q P R G D P T G P K E S K K K V E R E T E T D P F D |
PR |
P Q I T L W Q R P L V T I K I G G Q L K E A L L D T G A D D T V L E E M N L P G R W K P K M I G G I G G F I K V R Q Y D Q I L I E I C G H K A I G T V L V G P T P V N I I G R N L L T Q I G C T L N F |
评估指标
本模型使用准确率(accuracy)作为评估指标。
BibTeX引用和引用信息
[待补充更多信息]