CodeSearch-ModernBERT-Owl開源代碼搜索模型 - 支持長序列代碼檢索應用

首頁

Codesearch ModernBERT Owl

由Shuu12121開發

專為代碼搜索設計的句子轉換器模型，基於ModernBERT架構，支持2048標記的序列長度

文本嵌入

Safetensors

英語開源協議:Apache-2.0 #代碼搜索優化 #長序列處理 #代碼-文檔匹配

下載量 75

發布時間 : 3/25/2025

模型概述

該模型是從CodeModernBERT-Owl微調而來的句子轉換器模型，專門用於計算代碼片段與文檔之間的語義相似度，適用於代碼搜索任務。

模型特點

長序列支持

支持最大2048個標記的序列長度，能處理中等長度的代碼片段和文檔

高效代碼搜索

專門優化用於代碼搜索任務，能高效計算代碼與文檔的語義相似度

輕量級高性能

僅約1.5億參數的小型模型，但在代碼搜索任務中表現優異

模型能力

代碼語義理解

文檔字符串相似度計算

代碼搜索

使用案例

代碼搜索

代碼片段搜索

根據自然語言查詢搜索相關代碼片段

在CodeSearchNet基準測試中取得76.89分

文檔-代碼匹配

將文檔描述與實現代碼進行匹配驗證

🚀 基於Shuu12121/CodeModernBERT-Owl🦉的句子轉換器

該模型是一個基於 Shuu12121/CodeModernBERT-Owl 微調的 sentence-transformers 模型，而 Shuu12121/CodeModernBERT-Owl 是我專門為代碼設計、從頭開始預訓練的 ModernBERT 模型。它專為代碼搜索而設計，能夠高效計算代碼片段和文檔之間的語義相似度。該模型的一個關鍵特性是其 最大序列長度為 2048 個標記，這使其能夠處理中等長度的代碼片段和文檔。儘管它是一個參數約為 1.5 億 的相對較小的模型，但在代碼搜索任務中表現出色。

✨ 主要特性

專為代碼搜索設計：能夠高效計算代碼片段和文檔之間的語義相似度。
長序列處理能力：最大序列長度為 2048 個標記，可處理中等長度的代碼片段和文檔。
小模型高性能：儘管參數約為 1.5 億，在代碼搜索任務中表現出色。

📦 安裝指南

要安裝 sentence-transformers，請運行以下命令：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

# 下載並加載模型
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Owl")

# 推理用的句子列表
sentences = [
    'Encrypts the zip file',
    'def freeze_encrypt(dest_dir, zip_filename, config, opt):\n    \n    pgp_keys = grok_keys(config)\n    icefile_prefix = "aomi-%s" % \\\n                     os.path.basename(os.path.dirname(opt.secretfile))\n    if opt.icefile_prefix:\n        icefile_prefix = opt.icefile_prefix\n\n    timestamp = time.strftime("%H%M%S-%m-%d-%Y",\n                              datetime.datetime.now().timetuple())\n    ice_file = "%s/%s-%s.ice" % (dest_dir, icefile_prefix, timestamp)\n    if not encrypt(zip_filename, ice_file, pgp_keys):\n        raise aomi.exceptions.GPG("Unable to encrypt zipfile")\n\n    return ice_file',
    'def transform(self, sents):\n        \n\n        def convert(tokens):\n            return torch.tensor([self.vocab.stoi[t] for t in tokens], dtype=torch.long)\n\n        if self.vocab is None:\n            raise Exception(\n                "Must run .fit() for .fit_transform() before " "calling .transform()."\n            )\n\n        seqs = sorted([convert(s) for s in sents], key=lambda x: -len(x))\n        X = torch.LongTensor(pad_sequence(seqs, batch_first=True))\n        return X',
]

# 生成嵌入向量
embeddings = model.encode(sentences)
print(embeddings.shape)  # 輸出: [3, 768]

# 計算相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)  # 輸出: [3, 3]

📚 詳細文檔

模型評估

CoIR 評估結果

該模型雖然是一個參數約為 1.5 億 的相對較小的模型，但在 CodeSearchNet 基準測試中取得了令人矚目的 76.89 分，證明了其在代碼搜索任務中的高性能。由於該模型專門用於代碼搜索，不支持其他任務，因此未提供其他任務的評估分數。在 CodeSearchNet 任務中，該模型的表現優於許多知名模型，如下表所示。

模型名稱	CodeSearchNet 得分
Shuu12121/CodeModernBERT-Owl	76.89
Salesforce/SFR-Embedding-Code-2B_R	73.5
CodeSage-large-v2	94.26
Salesforce/SFR-Embedding-Code-400M_R	72.53
CodeSage-large	90.58
Voyage-Code-002	81.79
E5-Mistral	54.25
E5-Base-v2	67.99
OpenAI-Ada-002	74.21
BGE-Base-en-v1.5	69.6
BGE-M3	43.23
UniXcoder	60.2
GTE-Base-en-v1.5	43.35
Contriever	34.72

模型詳情

屬性	詳情
模型類型	Sentence Transformer
基礎模型	Shuu12121/CodeModernBERT-Owl
最大序列長度	2048 個標記
輸出維度	768 維
相似度函數	餘弦相似度
許可證	Apache-2.0

庫版本

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.50.0
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.4.1
Tokenizers: 0.21.1

引用信息

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}