st-codesearch-distilroberta-baseオープンソースモデル - 無料で効率的なコード検索を実現する有力なツール

ホーム

St Codesearch Distilroberta Base

flax-sentence-embeddingsによって開発

これはDistilRoBERTa-baseをベースとした文変換モデルで、コード検索タスク専用に設計されており、テキストやコードスニペットを768次元のベクトル空間にマッピングできます。

テキスト埋め込み

PyTorch

#コード意味検索 #プログラムコードベクトル化 #DistilRoBERTa最適化

ダウンロード数 6,954

リリース時間 : 3/2/2022

モデル概要

このモデルはコード検索ネットワークデータセットで訓練されており、自然言語クエリに基づいて関連するプログラムコードをマッチングするために主に使用され、意味検索やクラスタリングタスクをサポートします。

モデル特徴

コード意味理解

プログラムコードの意味を理解し、コードスニペットをベクトル表現に変換できる

効率的な検索

コサイン類似度を通じて自然言語クエリとコードスニペットを迅速にマッチング

軽量アーキテクチャ

DistilRoBERTaに基づく蒸留モデルで、性能を維持しながら計算リソース要件を削減

モデル能力

テキストベクトル化

コード意味検索

類似度計算

情報検索

使用事例

コード検索と推薦

関数コード検索

自然言語の説明に基づいて特定の機能を実装するコードスニペットを検索

クエリと関数実装を正確にマッチング可能

コードベース整理

意味的類似度に基づいてコードベース内の関数をクラスタリング分析

コードベース内の機能類似モジュールの発見に役立つ

開発者ツール

IDEインテリジェント検索

開発環境に統合して意味ベースのコード検索機能を提供

開発者が関連コードを検索する効率を向上

🚀 flax-sentence-embeddings/st-codesearch-distilroberta-base

このモデルはsentence-transformersをベースにしており、文章や段落を768次元の密ベクトル空間にマッピングします。クラスタリングや意味検索などのタスクに使用できます。 code_search_netデータセットで学習されており、テキストからプログラムコードを検索することができます。

🚀 クイックスタート

このモデルは文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。また、テキストからプログラムコードを検索することも可能です。

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに使用できる。
テキストからプログラムコードを検索することができる。

📦 インストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer, util


#This list the defines the different programm codes
code = ["""def sort_list(x):
   return sorted(x)""",
"""def count_above_threshold(elements, threshold=0):
    counter = 0
    for e in elements:
        if e > threshold:
            counter += 1
    return counter""",
"""def find_min_max(elements):
    min_ele = 99999
    max_ele = -99999
    for e in elements:
        if e < min_ele:
            min_ele = e
        if e > max_ele:
            max_ele = e
    return min_ele, max_ele"""]
    

model = SentenceTransformer("flax-sentence-embeddings/st-codesearch-distilroberta-base")

# Encode our code into the vector space
code_emb = model.encode(code, convert_to_tensor=True)

# Interactive demo: Enter queries, and the method returns the best function from the 
# 3 functions we defined
while True:
    query = input("Query: ")
    query_emb = model.encode(query, convert_to_tensor=True)
    hits = util.semantic_search(query_emb, code_emb)[0]
    top_hit = hits[0]

    print("Cossim: {:.2f}".format(top_hit['score']))
    print(code[top_hit['corpus_id']])
    print("\n\n")

高度な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('flax-sentence-embeddings/st-codesearch-distilroberta-base')
embeddings = model.encode(sentences)
print(embeddings)

🔧 技術詳細

学習に関する情報

このモデルはDistilRoBERTa-baseモデルを使用して、codesearchデータセットで10kの学習ステップ、バッチサイズ256、MultipleNegativesRankingLossで学習されました。

学習パラメータ

DataLoader

MultiDatasetDataLoader.MultiDatasetDataLoader 長さ5371、パラメータ:

{'batch_size': 256}

Loss

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss パラメータ:

{'scale': 20, 'similarity_fct': 'dot_score'}

fit()メソッドのパラメータ

{
    "callback": null,
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "warmupconstant",
    "steps_per_epoch": 10000,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

モデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)