CodeSearch-ModernBERT-Crow-Plus開源代碼搜索模型 - 支持多語言自然語言與代碼語義匹配

Home

Codesearch ModernBERT Crow Plus

Developed by Shuu12121

基於ModernBERT架構優化的多語言代碼搜索模型，支持自然語言與代碼間的語義匹配

文本嵌入 Supports Multiple LanguagesOpen Source License:Apache-2.0 #多語言代碼搜索 #函數級語義匹配 #自然語言轉代碼

Downloads 96

Release Time : 4/25/2025

Model Overview

該模型是針對多語言代碼搜索任務優化的句子轉換器模型，能夠高效捕捉自然語言查詢與多種編程語言代碼片段之間的語義相似性

Model Features

多語言代碼支持

支持Python、Java、JavaScript、PHP、Ruby、Go、Rust等多種編程語言的代碼搜索

高精度語義匹配

在MTEB代碼搜索任務中取得nDCG@10 0.893的優異成績，排名前8/146

函數級代碼理解

專門針對函數級代碼片段優化，能精準匹配語義相似的代碼實現

日語查詢支持

通過集成Qwen3-8B-FP8翻譯模型，支持日語自然語言查詢轉換為英語搜索

Model Capabilities

自然語言到代碼搜索

代碼到代碼相似性比較

多語言代碼特徵提取

函數級代碼語義分析

Use Cases

代碼搜索系統

GitHub倉庫函數級搜索

構建針對GitHub倉庫的函數級代碼搜索系統，支持自然語言查詢

首次創建索引後可快速複用，支持高精度語義搜索

開發輔助工具

代碼推薦

根據開發者的自然語言描述推薦相似代碼實現

代碼複用檢測

識別項目中語義相似但實現不同的代碼片段

🚀 Shuu12121/CodeSearch-ModernBERT-Crow-Plus🐦‍⬛

CodeSearch-ModernBERT-Crow-Plus 是一個基於 Shuu12121/CodeModernBERT-Crow 的 Sentence Transformer 模型。它經過微調，在多語言代碼搜索任務中表現出色，能夠有效捕捉自然語言查詢與多種編程語言代碼片段之間的語義相似性。

開發者 (Developer): Shuu12121
基礎模型 (Base Model): Shuu12121/CodeModernBERT-Crow
許可證: Apache-2.0

👉 立即在 Google Colab 上試用
你可以輕鬆試用基於此模型構建的 GitHub 倉庫函數級代碼搜索系統！

🚀 快速開始

本模型可以藉助 sentence-transformers 庫輕鬆使用，以下是使用示例：

from sentence_transformers import SentenceTransformer
import torch

# 加載模型 / Load the model
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus")

# 要編碼的文本（代碼或自然語言） / Texts to encode (code or natural language)
code_snippets = [
    "def factorial(n): if n == 0: return 1 else: return n * factorial(n-1)",
    "function binarySearch(arr, target) { let left = 0, right = arr.length - 1; while (left <= right) { const mid = Math.floor((left + right) / 2); if (arr[mid] === target) return mid; if (arr[mid] < target) left = mid + 1; else right = mid - 1; } return -1; }"
]

natural_language_queries = [
    "calculate the factorial of a number recursively",
    "find an element in a sorted array using binary search"
]

# 獲取嵌入 / Get embeddings
code_embeddings = model.encode(code_snippets)
query_embeddings = model.encode(natural_language_queries)

print("Code Embeddings Shape:", code_embeddings.shape)
print("Query Embeddings Shape:", query_embeddings.shape)

# 計算相似度（例如：餘弦相似度） / Calculate similarity (e.g., cosine similarity)
# 需要一個相似度函數，例如：from sentence_transformers.util or sklearn.metrics.pairwise
# from sentence_transformers.util import cos_sim
# similarities = cos_sim(query_embeddings, code_embeddings)
# print(similarities)

✨ 主要特性

高性能代碼搜索：在 MTEB 基準測試的多個代碼搜索任務中取得了優異成績，展現出強大的代碼搜索能力。
多語言支持：支持 Python、Java、JavaScript、PHP、Ruby、Go、Rust 等多種編程語言。
語義理解：能夠捕捉自然語言查詢與代碼片段之間的語義相似性，實現自然語言 - 代碼間的高效檢索。
易於集成：可以通過 sentence-transformers 庫輕鬆集成到項目中。

📦 安裝指南

使用此模型需要安裝 sentence-transformers 庫，可通過以下命令進行安裝：

pip install sentence-transformers

📊 MTEB 排行榜成績

本模型 CodeSearch-ModernBERT-Crow-Plus 在 Massive Text Embedding Benchmark (MTEB) 的以下任務中取得了較高排名：當前排名可在排行榜中查看。

任務名稱	nDCG@10 分數	排名（截至2025年4月）
CodeSearchNetRetrieval	0.89296	第8位 / 146 個模型中
COIRCodeSearchNetRetrieval	0.79884	第5位 / 15 個模型中

這些結果表明，本模型在代碼搜索任務中具有很強的競爭力，尤其在 多語言、自然語言 - 代碼間的檢索精度 方面表現出色，是一個實用的選擇。

🧩 與相關項目的集成

CodeSearch-ModernBERT-Crow-Plus 可以像 CodeSearchCrow.ipynb 那樣，輕鬆構建一個 針對實際 GitHub 倉庫的函數級代碼搜索系統。

該筆記本會執行以下操作：

指定並克隆 GitHub 倉庫。
從 .py 或 .ipynb 文件中提取函數和代碼單元。
使用 Sentence Transformer 模型對函數代碼進行嵌入。
創建 FAISS 索引以實現快速檢索。
通過 Qwen3 - 8B - FP8 模型進行 日語 - 英語翻譯，實現日語查詢的自然檢索。

🔹 特點

首次運行創建索引，後續可快速複用：首次運行時創建索引，後續使用無需重複操作，提高檢索效率。
函數級檢索：支持函數級代碼搜索，能夠高精度地檢索出語義最相似的代碼。
支持日語查詢：藉助 [Qwen3 - 8B - FP8](https://huggingface.co/Qwen/Qwen3 - 8B - FP8) 模型進行翻譯後，可直接使用日語進行查詢。

🔗 鏈接

📄 可執行筆記本：.ipynb

📚 詳細文檔

概要

CodeSearch-ModernBERT-Crow-Plus 是一個 Sentence Transformer 模型，旨在捕捉自然語言查詢與多種編程語言（Python、Java、JavaScript、PHP、Ruby、Go、Rust）代碼片段（主要是函數級）之間的語義相似性。它繼承了基礎模型 CodeModernBERT-Crow 的強大代碼理解能力，並針對代碼搜索和相似性判定任務進行了優化。

模型細節

屬性	詳情
基礎模型	Shuu12121/CodeModernBERT-Crow
架構	ModernBERT (隱藏層大小: 768, 層數: 12, 頭數: 12)
最大輸入長度	1024 個標記
微調	該模型可能使用代碼及其對應的文檔（如 CodeSearchNet 數據集）進行了相似性學習任務的微調，並添加了 Pooling 層以用於 Sentence Transformer 庫。

🔧 技術細節

評估

本模型在 MTEB (Massive Text Embedding Benchmark) 上進行了評估。

任務: CodeSearchNet Retrieval

MTEB 標準評估 (主要分數: nDCG@10): 0.89296
- ndcg_at_1: 0.8135
- ndcg_at_3: 0.8781
- ndcg_at_5: 0.8868
- ndcg_at_10: 0.8930
- ndcg_at_20: 0.8947
- ndcg_at_100: 0.8971
- ndcg_at_1000: 0.8995
- map_at_10: 0.8705
- recall_at_10: 0.9610
- mrr_at_10: 0.8705
COIR 版評估 (主要分數: nDCG@10): 0.79884
- ndcg_at_1: 0.7152
- ndcg_at_3: 0.7762
- ndcg_at_5: 0.7885
- ndcg_at_10: 0.7988
- ndcg_at_20: 0.8056
- ndcg_at_100: 0.8134
- ndcg_at_1000: 0.8172
- map_at_10: 0.7729
- recall_at_10: 0.8794
- mrr_at_10: 0.7729