開源CLAP-ASM模型 - 免費提升二進制代碼分析性能，自然語言助力！

首頁

Clap Asm

由hustcw開發

CLAP是通過自然語言監督學習二進制代碼表徵的框架，通過將二進制代碼與自然語言描述對齊，提升分析性能。

多模態對齊

Transformers

開源協議:MIT #二進制代碼分析 #零樣本學習 #自然語言監督

下載量 102

發布時間 : 2/29/2024

模型概述

CLAP是一個基於自然語言監督的可遷移二進制代碼表徵學習框架，能夠在小樣本和零樣本場景下顯著提升二進制代碼分析性能。

模型特點

自然語言監督

通過將二進制代碼與自然語言描述對齊，實現更好的表徵學習

零樣本和小樣本學習能力

在少量或無需額外訓練數據的情況下實現高性能分類

大規模數據集支持

基於自動生成的1.95億組代碼片段及其描述的數據集進行訓練

卓越的遷移能力

預訓練模型可遷移到多種二進制代碼分析任務

模型能力

二進制代碼表徵學習

零樣本分類

小樣本學習

代碼片段匹配

跨任務遷移學習

使用案例

算法識別

排序算法識別

識別二進制代碼中的排序算法類型（如冒泡排序、選擇排序等）

高準確率的零樣本分類性能

安全分析

惡意軟件分類

基於二進制代碼片段識別惡意軟件類型

加密算法鑑別

識別二進制代碼中使用的加密算法

🚀 CLAP：通過自然語言監督學習可遷移的二進制代碼表示

CLAP（對比語言 - 彙編預訓練）是一個藉助自然語言監督來學習二進制代碼表示的框架。通過將二進制代碼與自然語言解釋對齊，它提升了少樣本和零樣本場景下的分析性能。CLAP利用一個能夠自動生成1.95億對代碼片段及其描述的數據集引擎，在二進制代碼分析領域提供了一種具有出色可遷移性的方法。我們的目標是為二進制代碼分析領域的研究人員和從業者提供一個有效的工具，我們的模型可在Hugging Face模型中心獲取。

🚀 快速開始

本文檔將幫助您設置並開始使用CLAP模型進行各種任務，包括對排序算法、惡意軟件和加密算法進行細粒度分類，且無需進行額外訓練。

要求

Python 3.6 或更高版本
PyTorch
Transformers庫
強烈建議使用支持CUDA的GPU以加快處理速度。

確保您的系統上已安裝Python和PyTorch。然後，使用pip安裝Transformers庫：

pip install transformers

準備分詞器和模型

導入必要的庫並初始化模型和分詞器：

import torch
from transformers import AutoModel, AutoTokenizer

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

asm_tokenizer = AutoTokenizer.from_pretrained("hustcw/clap-asm", trust_remote_code=True)
text_tokenizer = AutoTokenizer.from_pretrained("hustcw/clap-text", trust_remote_code=True)
asm_encoder = AutoModel.from_pretrained("hustcw/clap-asm", trust_remote_code=True).to(device)
text_encoder = AutoModel.from_pretrained("hustcw/clap-text", trust_remote_code=True).to(device)

使用示例

基礎用法

以下是一個對排序算法進行細粒度分類（零樣本）的示例：

# 加載彙編（asm）代碼數據集。這裡使用一個包含與冒泡排序相關的彙編代碼片段的JSON文件作為示例
with open("./CaseStudy/bubblesort.json") as fp:
    asm = json.load(fp)

# 定義分類提示
prompts = [
    "This is a function related to bubble sort",
    "This is a function related to selection sort",
    # 可以根據需要添加更多提示
]

# 對彙編代碼和提示進行編碼，然後進行分類
# 編碼彙編代碼
asm_input = asm_tokenizer([asm], padding=True, return_tensors="pt").to(device)
asm_embedding = asm_encoder(**asm_input)

# 編碼提示
text_input = text_tokenizer(prompts, return_tensors='pt').to(device)
text_embeddings = text_encoder(**text_input)

# 分類
logits = torch.einsum("nc,ck->nk", [asm_embedding.last_hidden_state, text_embeddings.last_hidden_state.T])
preds = torch.softmax(logits / 0.07, dim=1).squeeze(0).tolist()

# 輸出預測結果
for i, prompt in enumerate(prompts):
    print(f"Probability: {preds[i]*100:.3f}%, Text: {prompt}")

對於其他分類任務，如惡意軟件分類和加密算法識別，只需加載相應的數據集並定義相關的自然語言提示，重複上述過程即可。

✨ 主要特性

自然語言監督學習：通過自然語言監督學習二進制代碼表示，提升少樣本和零樣本場景下的分析性能。
可遷移性強：利用自動生成的大規模數據集引擎，在二進制代碼分析領域具有出色的可遷移性。
多任務支持：可用於排序算法、惡意軟件和加密算法等的細粒度分類，無需額外訓練。

📚 詳細文檔

新聞

[2024/2/29] CLAP可在Hugging Face模型中心獲取（clap-asm 和 clap-text）。
[2024/2/28] CLAP已發佈在 ArXiv 上。

引用

如果本工作對您的研究有幫助，請考慮給個星🌟 並引用我們的工作。

@misc{wang2024clap,
title={CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision},
author={Hao Wang and Zeyu Gao and Chao Zhang and Zihan Sha and Mingyang Sun and Yuchen Zhou and Wenyu Zhu and Wenju Sun and Han Qiu and Xi Xiao},
year={2024},
eprint={2402.16928},
archivePrefix={arXiv},
primaryClass={cs.SE}
}