st-codesearch-distilroberta-base開源模型 - 高效完成代碼搜索任務，輕鬆映射文本與代碼

首頁

St Codesearch Distilroberta Base

由codecompletedeployment開發

這是一個基於DistilRoBERTa的句子轉換器模型，專門用於代碼搜索任務，可將文本和代碼片段映射到768維向量空間。

文本嵌入

PyTorch

#代碼語義搜索 #程序代碼向量化 #DistilRoBERTa優化

下載量 16

發布時間 : 9/15/2023

模型概述

該模型是一個句子轉換器模型，經過訓練可將句子和段落映射到768維的密集向量空間，主要用於代碼搜索任務，能夠根據文本描述匹配相關程序代碼。

模型特點

代碼搜索優化

專門針對代碼搜索任務訓練，能夠有效匹配自然語言查詢與程序代碼

高效向量表示

將文本和代碼轉換為768維密集向量，便於相似度計算和檢索

基於DistilRoBERTa

使用輕量級但性能優異的DistilRoBERTa模型作為基礎架構

模型能力

句子嵌入

語義相似度計算

代碼搜索

特徵提取

使用案例

代碼檢索

根據描述查找函數

根據自然語言描述查找匹配的程序函數

能夠返回與查詢語義最接近的代碼片段

代碼庫搜索

在大規模代碼庫中搜索相關代碼片段

通過向量相似度快速定位相關代碼

開發工具

IDE插件

集成到開發環境中提供代碼搜索功能

提升開發者查找代碼的效率

🚀 flax-sentence-embeddings/st-codesearch-distilroberta-base

這是一個 sentence-transformers 模型，它可以將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。該模型在 code_search_net 數據集上進行訓練，可根據文本搜索程序代碼。

✨ 主要特性

基於 sentence-transformers 框架，可將文本映射到 768 維向量空間。
在 code_search_net 數據集上訓練，適用於代碼搜索任務。

📦 安裝指南

若要使用此模型，需安裝 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer, util


#This list the defines the different programm codes
code = ["""def sort_list(x):
   return sorted(x)""",
"""def count_above_threshold(elements, threshold=0):
    counter = 0
    for e in elements:
        if e > threshold:
            counter += 1
    return counter""",
"""def find_min_max(elements):
    min_ele = 99999
    max_ele = -99999
    for e in elements:
        if e < min_ele:
            min_ele = e
        if e > max_ele:
            max_ele = e
    return min_ele, max_ele"""]
    

model = SentenceTransformer("flax-sentence-embeddings/st-codesearch-distilroberta-base")

# Encode our code into the vector space
code_emb = model.encode(code, convert_to_tensor=True)

# Interactive demo: Enter queries, and the method returns the best function from the 
# 3 functions we defined
while True:
    query = input("Query: ")
    query_emb = model.encode(query, convert_to_tensor=True)
    hits = util.semantic_search(query_emb, code_emb)[0]
    top_hit = hits[0]

    print("Cossim: {:.2f}".format(top_hit['score']))
    print(code[top_hit['corpus_id']])
    print("\n\n")

高級用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('flax-sentence-embeddings/st-codesearch-distilroberta-base')
embeddings = model.encode(sentences)
print(embeddings)

🔧 技術細節

訓練信息

該模型使用 DistilRoBERTa-base 模型在 codesearch 數據集上進行了 10k 個訓練步驟的訓練，批次大小為 256，使用 MultipleNegativesRankingLoss 損失函數。這是一個初步模型，尚未經過測試，訓練也不夠精細。

訓練參數

DataLoader

MultiDatasetDataLoader.MultiDatasetDataLoader，長度為 5371，參數如下：

{'batch_size': 256}

Loss

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{'scale': 20, 'similarity_fct': 'dot_score'}

fit() 方法參數

{
    "callback": null,
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "warmupconstant",
    "steps_per_epoch": 10000,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)