🚀 HIV_BERT模型
HIV_BERT模型是專門針對HIV相關任務對ProtBert - BFD模型進行優化訓練得到的,能更精準地處理HIV相關數據,為HIV研究和預測提供有力支持。
🚀 快速開始
本模型可用於預測HIV相關序列中被掩碼位置最可能的氨基酸。以下是使用示例:
from transformers import pipeline
unmasker = pipeline("fill-mask", model="damlab/HIV_FLT")
unmasker(f"C T R P N [MASK] N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
{
"score": 0.9581968188285828,
"token": 17,
"token_str": "N",
"sequence": "C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.022986575961112976,
"token": 12,
"token_str": "K",
"sequence": "C T R P N K N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003997281193733215,
"token": 14,
"token_str": "D",
"sequence": "C T R P N D N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003636382520198822,
"token": 15,
"token_str": "T",
"sequence": "C T R P N T N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.002701344434171915,
"token": 10,
"token_str": "S",
"sequence": "C T R P N S N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
}
]
✨ 主要特性
📚 詳細文檔
模型描述
與原始的ProtBert - BFD模型類似,該模型將每個氨基酸編碼為一個單獨的標記。它採用掩碼語言模型(Masked Language Modeling)進行訓練,即隨機掩碼一組標記,讓模型預測這些被掩碼的標記。訓練時使用了damlab/HIV_FLT數據集,以256個氨基酸為一個塊,掩碼率為15%。
預期用途和限制
作為掩碼語言模型,該工具可使用掩碼方法預測預期的突變,有助於識別高度突變的序列、測序偽像或其他相關情況。同時,作為BERT模型,它也可作為遷移學習的基礎,用於開發HIV特定的分類任務。
訓練數據
使用damlab/HIV_FLT數據集對原始的rostlab/Prot - bert - bfd進行優化。該數據集包含來自全球的1790個完整HIV基因組,翻譯後約有390萬個氨基酸標記。
訓練過程
預處理
與rostlab/Prot - bert - bfd模型一樣,將罕見氨基酸U、Z、O和B轉換為X,並在每個氨基酸之間添加空格。將所有字符串連接起來,並分割成256個標記的塊進行訓練。隨機保留20%的塊用於驗證。
訓練
使用HuggingFace訓練模塊,通過掩碼語言模型(MaskedLM)數據加載器進行訓練,掩碼率為15%。學習率設置為E - 5,有50K個熱身步驟,採用餘弦重啟學習率調度,直到連續3個epoch在保留的驗證數據集上的損失沒有改善為止。
📄 許可證
本項目採用MIT許可證。
示例數據
示例標題 |
文本 |
V3 |
C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C |
Tat |
M E P V D P R L E P W K H P G S Q P K T A C T N C Y C K K C C F H C Q V C F I T K A L G I S Y G R K K R R Q R R R A H Q N S Q T H Q A S L S K Q P T S Q P R G D P T G P K E S K K K V E R E T E T D P F D |
PR |
P Q I T L W Q R P L V T I K I G G Q L K E A L L D T G A D D T V L E E M N L P G R W K P K M I G G I G G F I K V R Q Y D Q I L I E I C G H K A I G T V L V G P T P V N I I G R N L L T Q I G C T L N F |
評估指標
本模型使用準確率(accuracy)作為評估指標。
BibTeX引用和引用信息
[待補充更多信息]