🚀 AbLang重鏈模型
AbLang是一款用於抗體的語言模型,本項目是其🤗版本。該模型在 此論文 中被首次提出,並在 此代碼庫 中首次發佈。此模型基於大寫氨基酸進行訓練,僅適用於大寫字母表示的氨基酸。
✨ 主要特性
- 可用於蛋白質特徵提取。
- 可在下游任務中進行微調(待確定具體任務)。
📦 安裝指南
若要使用LoRA進行微調以節省內存,需安裝以下依賴:
pip install git+https://github.com/huggingface/peft.git
pip install loralib
💻 使用示例
基礎用法
以下是如何在PyTorch中使用該模型獲取給定抗體序列特徵的示例:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('qilowoq/AbLang_heavy')
model = AutoModel.from_pretrained('qilowoq/AbLang_heavy', trust_remote_code=True)
sequence_Example = ' '.join("EVQLQESGPGLVKPSETLSLTCTVSGGPINNAYWTWIRQPPGKGLEYLGYVYHTGVTNYNPSLKSRLTITIDTSRKQLSLSLKFVTAADSAVYYCAREWAEDGDFGNAFHVWGQGTMVAVSSASTKGPSVFPLAPSSKSTSGGTAALGCL")
encoded_input = tokenizer(sequence_Example, return_tensors='pt')
model_output = model(**encoded_input)
高級用法
可以按如下方式生成序列嵌入:
def get_sequence_embeddings(encoded_input, model_output):
mask = encoded_input['attention_mask'].float()
d = {k: v for k, v in torch.nonzero(mask).cpu().numpy()}
for i in d:
mask[i, d[i]] = 0
mask[:, 0] = 0.0
mask = mask.unsqueeze(-1).expand(model_output.last_hidden_state.size())
sum_embeddings = torch.sum(model_output.last_hidden_state * mask, 1)
sum_mask = torch.clamp(mask.sum(1), min=1e-9)
return sum_embeddings / sum_mask
seq_embeds = get_sequence_embeddings(encoded_input, model_output)
微調用法
為節省內存,建議使用 LoRA 進行微調:
from peft import LoraConfig, get_peft_model
def apply_lora_bert(model):
config = LoraConfig(
r=8, lora_alpha=32,
lora_dropout=0.3,
target_modules=['query', 'value']
)
for param in model.parameters():
param.requires_grad = False
if param.ndim == 1:
param.data = param.data.to(torch.float32)
model.gradient_checkpointing_enable()
model.enable_input_require_grads()
model = get_peft_model(model, config)
return model
model = apply_lora_bert(model)
model.print_trainable_parameters()
📚 詳細文檔
預期用途與限制
該模型可用於蛋白質特徵提取,或在下游任務中進行微調(待確定具體任務)。
📄 許可證
本項目採用BSD許可證。
📚 引用
@article{Olsen2022,
title={AbLang: An antibody language model for completing antibody sequences},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2022.01.20.477061},
year={2022}
}