st - codesearch - distilroberta - baseオープンソースモデル - コード検索タスクを効率的に完了し、テキストとコードを簡単にマッピングする

ホーム

St Codesearch Distilroberta Base

codecompletedeploymentによって開発

これはDistilRoBERTaベースのセンテンストランスフォーマーモデルで、コード検索タスク専用に設計されており、テキストとコードスニペットを768次元ベクトル空間にマッピングできます。

テキスト埋め込み

PyTorch

#コード意味検索 #プログラムコードベクトル化 #DistilRoBERTa最適化

ダウンロード数 16

リリース時間 : 9/15/2023

モデル概要

このモデルはセンテンストランスフォーマーモデルで、文や段落を768次元の密なベクトル空間にマッピングするように訓練されており、主にコード検索タスクに使用され、テキスト記述に基づいて関連するプログラムコードをマッチングできます。

モデル特徴

コード検索最適化

コード検索タスク専用に訓練されており、自然言語クエリとプログラムコードを効果的にマッチングできる

効率的なベクトル表現

テキストとコードを768次元の密なベクトルに変換し、類似度計算と検索を容易にする

DistilRoBERTaベース

軽量ながら優れた性能を持つDistilRoBERTaモデルを基本アーキテクチャとして使用

モデル能力

文埋め込み

意味的類似度計算

コード検索

特徴抽出

使用事例

コード検索

記述に基づく関数検索

自然言語記述に基づいてマッチするプログラム関数を検索

クエリと意味的に最も近いコードスニペットを返すことができる

コードベース検索

大規模なコードベース内で関連するコードスニペットを検索

ベクトル類似度を通じて関連コードを迅速に特定

開発ツール

IDEプラグイン

開発環境に統合してコード検索機能を提供

開発者のコード検索効率を向上

🚀 flax-sentence-embeddings/st-codesearch-distilroberta-base

このモデルはsentence-transformersを使用したモデルです。文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

このモデルはcode_search_netデータセットで学習されており、テキストからプログラムコードを検索するために使用できます。

🚀 クイックスタート

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer, util


#This list the defines the different programm codes
code = ["""def sort_list(x):
   return sorted(x)""",
"""def count_above_threshold(elements, threshold=0):
    counter = 0
    for e in elements:
        if e > threshold:
            counter += 1
    return counter""",
"""def find_min_max(elements):
    min_ele = 99999
    max_ele = -99999
    for e in elements:
        if e < min_ele:
            min_ele = e
        if e > max_ele:
            max_ele = e
    return min_ele, max_ele"""]
    

model = SentenceTransformer("flax-sentence-embeddings/st-codesearch-distilroberta-base")

# Encode our code into the vector space
code_emb = model.encode(code, convert_to_tensor=True)

# Interactive demo: Enter queries, and the method returns the best function from the 
# 3 functions we defined
while True:
    query = input("Query: ")
    query_emb = model.encode(query, convert_to_tensor=True)
    hits = util.semantic_search(query_emb, code_emb)[0]
    top_hit = hits[0]

    print("Cossim: {:.2f}".format(top_hit['score']))
    print(code[top_hit['corpus_id']])
    print("\n\n")

高度な使用法

# [sentence-transformers](https://www.SBERT.net)をインストールすると、このモデルの使用が簡単になります。
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('flax-sentence-embeddings/st-codesearch-distilroberta-base')
embeddings = model.encode(sentences)
print(embeddings)

📦 インストール

pip install -U sentence-transformers

🔧 技術詳細

学習

このモデルはDistilRoBERTa-baseモデルを使用して、codesearchデータセットでバッチサイズ256、MultipleNegativesRankingLossを用いて10kステップの学習を行いました。

これは予備的なモデルであり、テストも行われておらず、学習も十分に洗練されていません。

学習に使用されたパラメータは以下の通りです。

DataLoader: MultiDatasetDataLoader.MultiDatasetDataLoader 長さ5371、パラメータ:

{'batch_size': 256}

Loss: sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss パラメータ:

{'scale': 20, 'similarity_fct': 'dot_score'}

fit()メソッドのパラメータ:

{
    "callback": null,
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "warmupconstant",
    "steps_per_epoch": 10000,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

モデルのアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)