st-codesearch-distilroberta-base開源模型 - 免費實現高效代碼搜索的得力助手

首頁

St Codesearch Distilroberta Base

由flax-sentence-embeddings開發

這是一個基於DistilRoBERTa-base的句子轉換器模型，專門用於代碼搜索任務，能將文本和代碼片段映射到768維向量空間。

文本嵌入

PyTorch

#代碼語義搜索 #程序代碼向量化 #DistilRoBERTa優化

下載量 6,954

發布時間 : 3/2/2022

模型概述

該模型經過代碼搜索網絡數據集訓練，主要用於根據自然語言查詢匹配相關程序代碼，支持語義搜索和聚類任務。

模型特點

代碼語義理解

能夠理解程序代碼的語義，將代碼片段轉換為向量表示

高效檢索

通過餘弦相似度快速匹配自然語言查詢與代碼片段

輕量級架構

基於DistilRoBERTa的蒸餾模型，在保持性能的同時減少計算資源需求

模型能力

文本向量化

代碼語義搜索

相似度計算

信息檢索

使用案例

代碼搜索與推薦

函數代碼檢索

根據自然語言描述查找實現特定功能的代碼片段

能夠準確匹配查詢與函數實現

代碼庫組織

基於語義相似度對代碼庫中的函數進行聚類分析

幫助發現代碼庫中的功能相似模塊

開發者工具

IDE智能搜索

集成到開發環境中提供基於語義的代碼搜索功能

提高開發者查找相關代碼的效率

🚀 flax-sentence-embeddings/st-codesearch-distilroberta-base

這是一個 sentence-transformers 模型，它能將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。該模型在 code_search_net 數據集上進行訓練，可根據文本搜索程序代碼。

🚀 快速開始

本模型可以將句子和段落映射到 768 維的向量空間，適用於代碼搜索、聚類和語義搜索等任務。它在 code_search_net 數據集上訓練，能根據文本搜索代碼。

✨ 主要特性

向量映射：將句子和段落映射到 768 維的密集向量空間。
多任務適用：可用於聚類、語義搜索等任務。
代碼搜索：基於 code_search_net 數據集訓練，能根據文本搜索程序代碼。

📦 安裝指南

若要使用此模型，需安裝 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer, util


#This list the defines the different programm codes
code = ["""def sort_list(x):
   return sorted(x)""",
"""def count_above_threshold(elements, threshold=0):
    counter = 0
    for e in elements:
        if e > threshold:
            counter += 1
    return counter""",
"""def find_min_max(elements):
    min_ele = 99999
    max_ele = -99999
    for e in elements:
        if e < min_ele:
            min_ele = e
        if e > max_ele:
            max_ele = e
    return min_ele, max_ele"""]
    

model = SentenceTransformer("flax-sentence-embeddings/st-codesearch-distilroberta-base")

# Encode our code into the vector space
code_emb = model.encode(code, convert_to_tensor=True)

# Interactive demo: Enter queries, and the method returns the best function from the 
# 3 functions we defined
while True:
    query = input("Query: ")
    query_emb = model.encode(query, convert_to_tensor=True)
    hits = util.semantic_search(query_emb, code_emb)[0]
    top_hit = hits[0]

    print("Cossim: {:.2f}".format(top_hit['score']))
    print(code[top_hit['corpus_id']])
    print("\n\n")

高級用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('flax-sentence-embeddings/st-codesearch-distilroberta-base')
embeddings = model.encode(sentences)
print(embeddings)

🔧 技術細節

訓練信息

該模型使用 DistilRoBERTa-base 模型，在 codesearch 數據集上以批量大小 256 和 MultipleNegativesRankingLoss 進行 10000 個訓練步驟的訓練。它是一個初步模型，尚未經過充分測試和複雜訓練。

訓練參數

DataLoader

MultiDatasetDataLoader.MultiDatasetDataLoader，長度為 5371，參數如下：

{'batch_size': 256}

Loss

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{'scale': 20, 'similarity_fct': 'dot_score'}

fit() 方法參數

{
    "callback": null,
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "warmupconstant",
    "steps_per_epoch": 10000,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)