🚀 [HIV_V3_bodysite 模型卡]
HIV-BERT-Bodysite-Identification 模型是对 HIV-BERT 模型的改进,能够根据 HIV V3 环样本的基因组序列,更精准地预测其来源位置,为 HIV 治疗策略研究提供有力支持。
🚀 快速开始
模型用途
本工具可根据 HIV 基因组序列,预测样本的来源位置,但不能作为临床诊断工具。
使用示例
from transformers import pipeline
predictor = pipeline("text-classification", model="damlab/HIV_V3_bodysite")
predictor(f"C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
[
{
"label": "periphery-tcell",
"score": 0.29097115993499756
},
{
"label": "periphery-monocyte",
"score": 0.014322502538561821
},
{
"label": "CNS",
"score": 0.06870711594820023
},
{
"label": "breast-milk",
"score": 0.002785981632769108
},
{
"label": "female-genitals",
"score": 0.024997007101774216
},
{
"label": "male-genitals",
"score": 0.01040483545511961
},
{
"label": "gastric",
"score": 0.06872137635946274
},
{
"label": "lung",
"score": 0.04432062804698944
},
{
"label": "organ",
"score": 0.47476938366889954
}
]
]
✨ 主要特性
- 基于 HIV-BERT 模型改进,能更精准预测 HIV V3 环样本的来源位置。
- 可处理多种 HIV 基因组序列,为 HIV 治疗策略研究提供重要参考。
📦 安装指南
暂未提及安装相关内容,可参考相关代码库或文档获取安装步骤。
💻 使用示例
基础用法
from transformers import pipeline
predictor = pipeline("text-classification", model="damlab/HIV_V3_bodysite")
predictor(f"C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
高级用法
由于文档未提供高级用法示例,暂无法给出。
📚 详细文档
模型描述
HIV-BERT-Bodysite-Identification 模型旨在预测 HIV 序列最可能的来源位置。HIV 感染免疫细胞后,会借助这些细胞在体内快速传播。因此,确定 HIV 粒子的最终位置,有助于研究 HIV 治疗策略。该模型可以根据输入的 HIV 基因组序列,预测其来源组织。
预期用途与限制
本工具可作为预测 HIV 样本来源位置的工具,但不能作为临床诊断工具。该模型使用 Los Alamos HIV 序列数据集进行训练,该数据集主要由来自北美和欧洲的 B 亚型序列组成,C、A 和 D 亚型的贡献较小。目前尚未对这些类别进行性能平衡,因此在处理非 B 亚型序列时,可能需要使用更多序列进行优化。
训练数据
本模型使用 damlab/HIV_V3_bodysite 数据集的第 0 折进行训练。该数据集包含从 Los Alamos HIV 序列数据库中提取的 5510 条序列(每条序列约 35 个标记)。
训练过程
预处理
与 rostlab/Prot-bert-bfd 模型一样,将罕见氨基酸 U、Z、O 和 B 转换为 X,并在每个氨基酸之间添加空格。将所有字符串连接起来,并分割成 256 个标记的块进行训练。随机保留 20% 的块用于验证。
训练
使用 damlab/HIV-BERT 模型作为 AutoModelforClassificiation 的初始权重。模型以 1E-5 的学习率、50K 预热步骤和 cosine_with_restarts 学习率调度进行训练,直到连续 3 个 epoch 未能改善保留数据集的损失为止。由于这是一个多分类任务(一种蛋白质可以在多个位置找到),因此损失计算为每个类别的二元交叉熵(BCE)。BCE 通过类别比例的倒数进行加权,以平衡类别不平衡的权重。
🔧 技术细节
模型架构
基于 HIV-BERT 模型进行改进,HIV-BERT 模型是从 ProtBert-BFD 模型(https://huggingface.co/Rostlab/prot_bert_bfd)改进而来,更适合处理以 HIV 为中心的任务。
评估指标
使用准确率(accuracy)作为评估指标。
📄 许可证
本项目采用 MIT 许可证。