🚀 [HIV_V3_bodysite 模型卡]
HIV-BERT-Bodysite-Identification 模型是對 HIV-BERT 模型的改進,能夠根據 HIV V3 環樣本的基因組序列,更精準地預測其來源位置,為 HIV 治療策略研究提供有力支持。
🚀 快速開始
模型用途
本工具可根據 HIV 基因組序列,預測樣本的來源位置,但不能作為臨床診斷工具。
使用示例
from transformers import pipeline
predictor = pipeline("text-classification", model="damlab/HIV_V3_bodysite")
predictor(f"C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
[
{
"label": "periphery-tcell",
"score": 0.29097115993499756
},
{
"label": "periphery-monocyte",
"score": 0.014322502538561821
},
{
"label": "CNS",
"score": 0.06870711594820023
},
{
"label": "breast-milk",
"score": 0.002785981632769108
},
{
"label": "female-genitals",
"score": 0.024997007101774216
},
{
"label": "male-genitals",
"score": 0.01040483545511961
},
{
"label": "gastric",
"score": 0.06872137635946274
},
{
"label": "lung",
"score": 0.04432062804698944
},
{
"label": "organ",
"score": 0.47476938366889954
}
]
]
✨ 主要特性
- 基於 HIV-BERT 模型改進,能更精準預測 HIV V3 環樣本的來源位置。
- 可處理多種 HIV 基因組序列,為 HIV 治療策略研究提供重要參考。
📦 安裝指南
暫未提及安裝相關內容,可參考相關代碼庫或文檔獲取安裝步驟。
💻 使用示例
基礎用法
from transformers import pipeline
predictor = pipeline("text-classification", model="damlab/HIV_V3_bodysite")
predictor(f"C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
高級用法
由於文檔未提供高級用法示例,暫無法給出。
📚 詳細文檔
模型描述
HIV-BERT-Bodysite-Identification 模型旨在預測 HIV 序列最可能的來源位置。HIV 感染免疫細胞後,會藉助這些細胞在體內快速傳播。因此,確定 HIV 粒子的最終位置,有助於研究 HIV 治療策略。該模型可以根據輸入的 HIV 基因組序列,預測其來源組織。
預期用途與限制
本工具可作為預測 HIV 樣本來源位置的工具,但不能作為臨床診斷工具。該模型使用 Los Alamos HIV 序列數據集進行訓練,該數據集主要由來自北美和歐洲的 B 亞型序列組成,C、A 和 D 亞型的貢獻較小。目前尚未對這些類別進行性能平衡,因此在處理非 B 亞型序列時,可能需要使用更多序列進行優化。
訓練數據
本模型使用 damlab/HIV_V3_bodysite 數據集的第 0 折進行訓練。該數據集包含從 Los Alamos HIV 序列數據庫中提取的 5510 條序列(每條序列約 35 個標記)。
訓練過程
預處理
與 rostlab/Prot-bert-bfd 模型一樣,將罕見氨基酸 U、Z、O 和 B 轉換為 X,並在每個氨基酸之間添加空格。將所有字符串連接起來,並分割成 256 個標記的塊進行訓練。隨機保留 20% 的塊用於驗證。
訓練
使用 damlab/HIV-BERT 模型作為 AutoModelforClassificiation 的初始權重。模型以 1E-5 的學習率、50K 預熱步驟和 cosine_with_restarts 學習率調度進行訓練,直到連續 3 個 epoch 未能改善保留數據集的損失為止。由於這是一個多分類任務(一種蛋白質可以在多個位置找到),因此損失計算為每個類別的二元交叉熵(BCE)。BCE 通過類別比例的倒數進行加權,以平衡類別不平衡的權重。
🔧 技術細節
模型架構
基於 HIV-BERT 模型進行改進,HIV-BERT 模型是從 ProtBert-BFD 模型(https://huggingface.co/Rostlab/prot_bert_bfd)改進而來,更適合處理以 HIV 為中心的任務。
評估指標
使用準確率(accuracy)作為評估指標。
📄 許可證
本項目採用 MIT 許可證。