オープンソースCLAP-ASMモデル - 無料でバイナリコード分析性能を向上させる、自然言語の力を借りましょう！

ホーム

Clap Asm

hustcwによって開発

CLAPは自然言語監視を通じてバイナリコード表現を学習するフレームワークで、バイナリコードと自然言語記述を整合させることで解析性能を向上させます。

マルチモーダルアライメント

Transformers

オープンソースライセンス:MIT #バイナリコード解析 #ゼロショット学習 #自然言語監視

ダウンロード数 102

リリース時間 : 2/29/2024

モデル概要

CLAPは自然言語監視に基づく転移可能なバイナリコード表現学習フレームワークで、少数サンプルやゼロショットシナリオにおいてバイナリコード解析性能を大幅に向上させることができます。

モデル特徴

自然言語監視

バイナリコードと自然言語記述を整合させることで、より良い表現学習を実現

ゼロショット・少数ショット学習能力

追加の訓練データが少量または不要な状況でも高性能な分類を実現

大規模データセット対応

自動生成された1億9500万組のコード断片とその記述データセットで訓練

優れた転移能力

事前学習モデルは様々なバイナリコード解析タスクに転移可能

モデル能力

バイナリコード表現学習

ゼロショット分類

少数ショット学習

コード断片マッチング

クロスタスク転移学習

使用事例

アルゴリズム認識

ソートアルゴリズム認識

バイナリコード中のソートアルゴリズムタイプを識別（バブルソート、選択ソートなど）

高精度なゼロショット分類性能

セキュリティ分析

マルウェア分類

バイナリコード断片に基づきマルウェアタイプを識別

暗号アルゴリズム識別

バイナリコードで使用されている暗号アルゴリズムを識別

🚀 CLAP: 自然言語監督による転移可能なバイナリコード表現の学習

CLAP（Contrastive Language - Assembly Pre - training）は、自然言語監督を通じてバイナリコード表現を学習するフレームワークです。バイナリコードと自然言語の説明をアライメントすることで、few - shotおよびzero - shotシナリオにおける分析性能を向上させます。自動的に1億9500万組のコードスニペットとその説明を生成できるデータセットエンジンを利用し、バイナリコード分析の分野で卓越した転移性を持つ手法を提供します。

🚀 クイックスタート

このドキュメントでは、CLAPモデルをセットアップし、ソートアルゴリズム、マルウェア、暗号アルゴリズムの細粒度分類などの様々なタスクに使用する方法を説明します。これらのタスクは追加のトレーニングなしで実行できます。

必要条件

Python 3.6以上
PyTorch
Transformersライブラリ
高速処理のために、CUDA対応のGPUを使用することを強くおすすめします。

システムにPythonとPyTorchがインストールされていることを確認してください。その後、pipを使用してTransformersライブラリをインストールします。

pip install transformers

トークナイザーとモデルの準備

必要なライブラリをインポートし、モデルとトークナイザーを初期化します。

import torch
from transformers import AutoModel, AutoTokenizer

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

asm_tokenizer = AutoTokenizer.from_pretrained("hustcw/clap-asm", trust_remote_code=True)
text_tokenizer = AutoTokenizer.from_pretrained("hustcw/clap-text", trust_remote_code=True)
asm_encoder = AutoModel.from_pretrained("hustcw/clap-asm", trust_remote_code=True).to(device)
text_encoder = AutoModel.from_pretrained("hustcw/clap-text", trust_remote_code=True).to(device)

使用例

細粒度ソートアルゴリズム分類（Zero - Shot）

アセンブリ（asm）コードデータセットをロードします。ここでは、バブルソートに関連するアセンブリコードスニペットを含むJSONファイルを使用します。

with open("./CaseStudy/bubblesort.json") as fp:
    asm = json.load(fp)

分類プロンプトを定義します。

prompts = [
"This is a function related to bubble sort",
"This is a function related to selection sort",
...
]

アセンブリコードとプロンプトをエンコードし、分類を実行します。

# Encode assembly code
asm_input = asm_tokenizer([asm], padding=True, return_tensors="pt").to(device)
asm_embedding = asm_encoder(**asm_input)

# Encode prompts
text_input = text_tokenizer(prompts, return_tensors='pt').to(device)
text_embeddings = text_encoder(**text_input)

# Classification
logits = torch.einsum("nc,ck->nk", [asm_embedding.last_hidden_state, text_embeddings.last_hidden_state.T])
preds = torch.softmax(logits / 0.07, dim=1).squeeze(0).tolist()

# Output predictions
for i, prompt in enumerate(prompts):
    print(f"Probability: {preds[i]*100:.3f}%, Text: {prompt}")

マルウェア分類や暗号アルゴリズム識別などの他の分類タスクでも、それぞれのデータセットをロードし、関連する自然言語プロンプトを定義することで同じプロセスを繰り返します。

✨ 主な機能

CLAPは、自然言語監督を利用してバイナリコード表現を学習することで、以下のような機能を提供します。

バイナリコードと自然言語説明のアライメントにより、few - shotおよびzero - shotシナリオでの分析性能向上。
自動的に大量のコードスニペットとその説明を生成するデータセットエンジンを利用した高い転移性。
モデルはHugging Face Model Hubで公開されており、簡単に利用できます。

clap_model

📦 インストール

インストール手順については、「クイックスタート」の「必要条件」と「トークナイザーとモデルの準備」を参照してください。

📚 ドキュメント

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📜 引用

この研究があなたの研究に役立った場合、スター🌟を付けて、以下のように引用していただけると幸いです。

@misc{wang2024clap,
title={CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision},
author={Hao Wang and Zeyu Gao and Chao Zhang and Zihan Sha and Mingyang Sun and Yuchen Zhou and Wenyu Zhu and Wenju Sun and Han Qiu and Xi Xiao},
year={2024},
eprint={2402.16928},
archivePrefix={arXiv},
primaryClass={cs.SE}
}