AbLang_heavy開源抗體語言模型 - 免費處理重鏈序列，助力蛋白特徵提取

首頁

Ablang Heavy

由qilowoq開發

AbLang是一種抗體語言模型，專門用於處理抗體序列，特別是重鏈序列。該模型基於大寫氨基酸字母訓練，適用於蛋白質特徵提取和下游任務微調。

蛋白質模型

Transformers

#抗體序列特徵提取 #蛋白質語言模型 #LoRA高效微調

下載量 131

發布時間 : 4/29/2023

模型概述

AbLang是一種抗體語言模型，主要用於抗體序列的特徵提取和下游任務的微調。該模型基於大寫氨基酸字母訓練，支持重鏈抗體序列的處理。

模型特點

抗體序列處理

專門設計用於處理抗體序列，特別是重鏈序列，支持大寫氨基酸字母輸入。

特徵提取

能夠從抗體序列中提取有用的特徵，適用於下游任務。

微調支持

支持通過LoRA等技術進行微調，減少內存消耗並保持性能。

模型能力

抗體序列特徵提取

抗體序列相似度計算

下游任務微調

使用案例

生物醫學研究

抗體設計

利用模型提取的抗體序列特徵進行抗體設計和優化。

蛋白質工程

通過模型分析抗體序列，輔助蛋白質工程研究。

🚀 AbLang重鏈模型

AbLang是一款用於抗體的語言模型，本項目是其🤗版本。該模型在此論文中被首次提出，並在此代碼庫中首次發佈。此模型基於大寫氨基酸進行訓練，僅適用於大寫字母表示的氨基酸。

✨ 主要特性

可用於蛋白質特徵提取。
可在下游任務中進行微調（待確定具體任務）。

📦 安裝指南

若要使用LoRA進行微調以節省內存，需安裝以下依賴：

pip install git+https://github.com/huggingface/peft.git
pip install loralib

💻 使用示例

基礎用法

以下是如何在PyTorch中使用該模型獲取給定抗體序列特徵的示例：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('qilowoq/AbLang_heavy')
model = AutoModel.from_pretrained('qilowoq/AbLang_heavy', trust_remote_code=True)

sequence_Example = ' '.join("EVQLQESGPGLVKPSETLSLTCTVSGGPINNAYWTWIRQPPGKGLEYLGYVYHTGVTNYNPSLKSRLTITIDTSRKQLSLSLKFVTAADSAVYYCAREWAEDGDFGNAFHVWGQGTMVAVSSASTKGPSVFPLAPSSKSTSGGTAALGCL")
encoded_input = tokenizer(sequence_Example, return_tensors='pt')
model_output = model(**encoded_input)

高級用法

可以按如下方式生成序列嵌入：

def get_sequence_embeddings(encoded_input, model_output):
    mask = encoded_input['attention_mask'].float()
    d = {k: v for k, v in torch.nonzero(mask).cpu().numpy()} # dict of sep tokens
    # make sep token invisible
    for i in d:
        mask[i, d[i]] = 0
    mask[:, 0] = 0.0 # make cls token invisible
    mask = mask.unsqueeze(-1).expand(model_output.last_hidden_state.size())
    sum_embeddings = torch.sum(model_output.last_hidden_state * mask, 1)
    sum_mask = torch.clamp(mask.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

seq_embeds = get_sequence_embeddings(encoded_input, model_output)

微調用法

為節省內存，建議使用 LoRA 進行微調：

from peft import LoraConfig, get_peft_model

def apply_lora_bert(model):
    config = LoraConfig(
        r=8, lora_alpha=32, 
        lora_dropout=0.3,
        target_modules=['query', 'value']
    )
    for param in model.parameters():
        param.requires_grad = False  # freeze the model - train adapters later
        if param.ndim == 1:
        # cast the small parameters (e.g. layernorm) to fp32 for stability
            param.data = param.data.to(torch.float32)
    model.gradient_checkpointing_enable()  # reduce number of stored activations
    model.enable_input_require_grads()
    model = get_peft_model(model, config)
    return model

model = apply_lora_bert(model)

model.print_trainable_parameters()
# trainable params: 294912 || all params: 85493760 || trainable%: 0.3449514911965505

📚 詳細文檔

預期用途與限制

該模型可用於蛋白質特徵提取，或在下游任務中進行微調（待確定具體任務）。

📄 許可證

本項目採用BSD許可證。

📚 引用

@article{Olsen2022,
  title={AbLang: An antibody language model for completing antibody sequences},
  author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
  journal={bioRxiv},
  doi={https://doi.org/10.1101/2022.01.20.477061},
  year={2022}
}