VirtualCompilerオープンソースモデル - 任意のプログラミング言語を無料で低レベルアセンブリコードにコンパイル

ホーム

Virtualcompiler

elsagrangerによって開発

340億パラメータのCodeLlamaを基に構築された大規模言語モデルで、任意のプログラミング言語を低レベルアセンブリコードにコンパイル可能

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #アセンブリコード生成 #大規模言語モデル #コード検索強化

ダウンロード数 17

リリース時間 : 5/25/2024

モデル概要

仮想コンパイラは、実際のコンパイラの動作をシミュレートできる大規模言語モデルで、高級プログラミング言語から低レベルアセンブリコードへの変換に特化し、アセンブリコード検索タスクでその有効性を検証

モデル特徴

仮想コンパイル能力

実際のコンパイラ動作をシミュレートし、高級言語コードを等価なアセンブリコードに変換可能

大規模パラメータ

340億パラメータのCodeLlamaモデルを基に構築され、強力なコード理解能力を有する

アセンブリコード検索

生成された仮想アセンブリコードは効率的なコード検索タスクに利用可能

モデル能力

プログラミング言語コンパイル

アセンブリコード生成

コード意味理解

アセンブリコード検索

使用事例

リバースエンジニアリング

バイナリコード分析

生成されたアセンブリコードを通じてバイナリプログラムの分析を支援

リバースエンジニアリング効率の向上

コードセキュリティ

脆弱性検出

アセンブリコードパターンを通じて潜在的なセキュリティ脆弱性を識別

コードセキュリティ分析能力の強化

🚀 アセンブリコード検索に必要なすべてがVirtual Compiler

このリポジトリには、ACL 2024の論文 "Virtual Compiler Is All You Need For Assembly Code Search" のモデルと対応する評価データセットが含まれています。

仮想コンパイラは、あらゆるプログラミング言語を基礎となるアセンブリコードにコンパイルできる大規模言語モデル（LLM）です。仮想コンパイラモデルは、elsagranger/VirtualCompiler で利用可能で、34BのCodeLlamaをベースにしています。

私たちは、仮想コンパイラによって生成された仮想アセンブリコードと実際のアセンブリコードの類似性を、スクリプト force-exec.py による強制実行を使用して評価しています。対応する評価データセットは、virtual_assembly_and_ground_truth で利用可能です。

また、仮想コンパイラの有効性を下流タスクであるアセンブリコード検索を通じて評価しています。評価データセットは、elsagranger/AssemblyCodeSearchEval で利用可能です。

🚀 クイックスタート

💻 使用例

基本的な使用法

私たちはFastChatとvllm workerを使用してモデルをホストします。以下のコマンドを別々のターミナル（例えば tmux）で実行してください。

LOGDIR="" python3 -m fastchat.serve.openai_api_server \
    --host 0.0.0.0 --port 8080 \
    --controller-address http://localhost:21000

LOGDIR="" python3 -m fastchat.serve.controller \
    --host 0.0.0.0 --port 21000

LOGDIR="" RAY_LOG_TO_STDERR=1 \
    python3 -m fastchat.serve.vllm_worker \
    --model-path ./VirtualCompiler \
    --num-gpus 8 \
    --controller http://localhost:21000 \
    --max-num-batched-tokens 40960 \
    --disable-log-requests \
    --host 0.0.0.0 --port 22000 \
    --worker-address http://localhost:22000 \
    --model-names "VirtualCompiler"

モデルがホストされたら、do_request.py を使用してモデルにリクエストを送信します。

~/C/VirtualCompiler (main)> python3 do_request.py
test rdx, rdx
setz al
movzx eax, al
neg eax
retn

高度な使用法

Hugging Faceはフォルダ内のリモートモデルの読み込みをサポートしていないため、私たちは仮想コンパイラによって拡張されたアセンブリコード検索データセットで学習されたモデルを vic-encoder でホストしています。カスタムモデルの読み込みをテストするには、model.py を使用できます。

以下は、テキストエンコーダとアセンブリエンコーダの使用例です。バイナリからアセンブリコードを抽出する方法については、このスクリプト process_asm.py を参照してください。

def calc_map_at_k(logits, pos_cnt, ks=[10,]):
    _, indices = torch.sort(logits, dim=1, descending=True)

    # [batch_size, pos_cnt]
    ranks = torch.nonzero(
        indices < pos_cnt,
        as_tuple=False
    )[:, 1].reshape(logits.shape[0], -1)

    # [batch_size, pos_cnt]
    mrr = torch.mean(1 / (ranks + 1), dim=1)

    res = {}

    for k in ks:
        res[k] = (
            torch.sum((ranks < k).float(), dim=1) / min(k, pos_cnt)
        ).cpu().numpy()

    return ranks.cpu().numpy(), res, mrr.cpu().numpy()

pos_asm_cnt = 1

query = ["List all files in a directory"]

# 上記のprocess_asm.pyスクリプトによって抽出されたもの
anchor_asm = [ {"1": "endbr64", "2": "mov eax, 0" }, ... ]
neg_anchor_asm = [ {"1": "push rbp", "2": "mov rbp, rsp", ... }, ... ]

query_embs = text_encoder(**text_tokenizer(query))

kwargs = dict(padding=True, pad_to_multiple_of=8, return_tensors="pt")
anchor_asm_ids = asm_tokenizer.pad([asm_tokenizer(pos) for pos in anchor_asm], **kwargs)
neg_anchor_asm_ids = asm_tokenizer.pad([asm_tokenizer(neg) for neg in neg_anchor_asm], **kwargs)

asm_embs = asm_encoder(**anchor_asm_ids)
asm_neg_emb = asm_encoder(**neg_anchor_asm_ids)

# query_embs: [query_cnt, emb_dim]
# asm_embs: [pos_asm_cnt, emb_dim]

# logits_pos: [query_cnt, pos_asm_cnt]
logits_pos = torch.einsum(
    "ic,jc->ij", [query_embs, asm_embs])
# logits_neg: [query_cnt, neg_asm_cnt]
logits_neg = torch.einsum(
    "ic,jc->ij", [query_embs, asm_neg_emb[pos_asm_cnt:]]
)
logits = torch.cat([logits_pos, logits_neg], dim=1)

ranks, map_at_k, mrr = calc_map_at_k(
    logits, pos_asm_cnt, [1, 5, 10, 20, 50, 100])