🚀 HIV_V3_coreceptor模型
HIV_V3_coreceptor模型是对HIV-BERT模型的进一步优化,旨在更精准地预测HIV V3共受体嗜性,为HIV相关研究提供更有力的支持。
🚀 快速开始
本文档详细介绍了HIV_V3_coreceptor模型,涵盖模型概述、描述、预期用途与限制、使用方法、训练数据、训练过程、评估结果以及引用信息等内容。
✨ 主要特性
- 优化预测:作为HIV-BERT模型的改进版本,能更精准地预测HIV V3共受体嗜性。
- 多类型识别:可原生识别R5、X4和双嗜性病毒。
📚 详细文档
模型概述
HIV-BERT-Coreceptor模型是对HIV-BERT模型的改进,用于更好地预测HIV V3共受体嗜性。HIV-BERT是从ProtBert-BFD模型改进而来,以更好地完成以HIV为中心的任务。该模型使用来自洛斯阿拉莫斯HIV序列数据库的HIV V3序列进行训练,比HIV-BERT模型能更精确地预测V3共受体嗜性。
模型描述
HIV-BERT-Coreceptor模型旨在从包膜蛋白片段预测HIV的共受体嗜性。这些包膜蛋白包裹病毒,并通过人类CD4受体与宿主细胞相互作用。HIV随后需要两种共受体(CCR5或CXCR4)之一的相互作用。这些共受体在不同细胞类型上的可用性使病毒能够侵入身体的不同部位并逃避抗逆转录病毒治疗。包膜蛋白的第3个可变环(V3环)负责这种相互作用。给定一个V3环序列,HIV-BERT-Coreceptor模型将预测与这些共受体结合的可能性。
预期用途与限制
此工具可作为Env-V3环HIV嗜性的预测器,能原生识别R5、X4和双嗜性病毒,但不应被视为临床诊断工具。
该工具使用洛斯阿拉莫斯HIV序列数据集进行训练。由于该数据库的采样性质,它主要由来自北美和欧洲的B亚型序列组成,只有少量的C、A和D亚型贡献。目前,没有努力平衡这些类别之间的性能。因此,应考虑使用额外的序列进行优化,以在非B序列上表现良好。
使用方法
待补充
训练数据
该模型使用damlab/HIV_V3_coreceptor数据集的第0折进行训练。该数据集由从洛斯阿拉莫斯HIV序列数据库提取的2935个V3序列(每个约35个标记)组成。
训练过程
预处理
与rostlab/Prot-bert-bfd模型一样,将罕见氨基酸U、Z、O和B转换为X,并在每个氨基酸之间添加空格。将所有字符串连接起来,并分块为256个标记的块进行训练。随机保留20%的块用于验证。
训练
使用damlab/HIV-BERT模型作为AutoModelforClassificiation的初始权重。模型以1E - 5的学习率、50K的热身步骤和余弦重启学习率计划进行训练,直到连续3个epoch在保留数据集上的损失没有改善为止。由于这是一个多分类任务(蛋白质可以与CCR5、CXCR4、两者都不结合或两者都结合),损失计算为每个类别的二元交叉熵。BCE通过类比率的倒数进行加权,以平衡类别不平衡的权重。
评估结果
待补充
BibTeX引用和引用信息
[更多信息待补充]
📄 许可证
本项目采用MIT许可证。