CodeSearch-ModernBERT-Owlオープンソースコード検索モデル - 長シーケンスコード検索アプリケーションをサポート

ホーム

Codesearch ModernBERT Owl

Shuu12121によって開発

コード検索専用に設計されたセンテンストランスフォーマーモデル、ModernBERTアーキテクチャを基に、2048トークンのシーケンス長をサポート

テキスト埋め込み

Safetensors

英語オープンソースライセンス:Apache-2.0 #コード検索最適化 #長いシーケンス処理 #コード-ドキュメントマッチング

ダウンロード数 75

リリース時間 : 3/25/2025

モデル概要

このモデルはCodeModernBERT-Owlからファインチューニングされたセンテンストランスフォーマーモデルで、コードスニペットとドキュメント間の意味的類似性を計算するために特別に設計されており、コード検索タスクに適しています。

モデル特徴

長いシーケンスサポート

最大2048トークンのシーケンス長をサポートし、中程度の長さのコードスニペットやドキュメントを処理可能

効率的なコード検索

コード検索タスクに特化して最適化されており、コードとドキュメントの意味的類似性を効率的に計算可能

軽量で高性能

約1.5億パラメータの小型モデルながら、コード検索タスクで優れた性能を発揮

モデル能力

コードの意味理解

ドキュメント文字列の類似性計算

コード検索

使用事例

コード検索

コードスニペット検索

自然言語クエリに基づいて関連するコードスニペットを検索

CodeSearchNetベンチマークで76.89点を獲得

ドキュメント-コードマッチング

ドキュメントの記述と実装コードをマッチングして検証

🚀 Shuu12121/CodeModernBERT-OwlをベースとしたSentenceTransformer🦉

このモデルは、コード検索に特化しており、コードスニペットとドキュメント間の意味的類似性を効率的に計算することができます。最大シーケンス長が2048トークンで、中程度の長さのコードやドキュメントにも対応しています。約1億5000万のパラメータと比較的小規模ですが、コード検索タスクで高い性能を発揮します。

✨ 主な機能

コード特化のModernBERTモデル Shuu12121/CodeModernBERT-Owl をベースにファインチューニングされた sentence-transformers モデルです。
最大シーケンス長が2048トークンで、中程度の長さのコードやドキュメントを扱うことができます。
コード検索に特化しており、コードスニペットとドキュメント間の意味的類似性を効率的に計算します。
約1億5000万のパラメータと比較的小規模ですが、コード検索タスクで高い性能を発揮します。

📦 インストール

Sentence Transformers をインストールするには、以下のコマンドを実行します。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# モデルをダウンロードしてロード
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Owl")

# 推論用の文リスト
sentences = [
    'Encrypts the zip file',
    'def freeze_encrypt(dest_dir, zip_filename, config, opt):\n    \n    pgp_keys = grok_keys(config)\n    icefile_prefix = "aomi-%s" % \\\n                     os.path.basename(os.path.dirname(opt.secretfile))\n    if opt.icefile_prefix:\n        icefile_prefix = opt.icefile_prefix\n\n    timestamp = time.strftime("%H%M%S-%m-%d-%Y",\n                              datetime.datetime.now().timetuple())\n    ice_file = "%s/%s-%s.ice" % (dest_dir, icefile_prefix, timestamp)\n    if not encrypt(zip_filename, ice_file, pgp_keys):\n        raise aomi.exceptions.GPG("Unable to encrypt zipfile")\n\n    return ice_file',
    'def transform(self, sents):\n        \n\n        def convert(tokens):\n            return torch.tensor([self.vocab.stoi[t] for t in tokens], dtype=torch.long)\n\n        if self.vocab is None:\n            raise Exception(\n                "Must run .fit() for .fit_transform() before " "calling .transform()."\n            )\n\n        seqs = sorted([convert(s) for s in sents], key=lambda x: -len(x))\n        X = torch.LongTensor(pad_sequence(seqs, batch_first=True))\n        return X',
]

# 埋め込みベクトルの生成
embeddings = model.encode(sentences)
print(embeddings.shape)  # 出力: [3, 768]

# 類似度スコアの計算
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)  # 出力: [3, 3]

📚 ドキュメント

モデル評価

このモデルは、1億5000万程度と比較的小規模ですが、コードサーチタスクにおける評価指標である CodeSearchNet で76.89を達成しました。他のタスクには対応していないため、評価値は提供されていません。CodeSearchNetタスクにおける評価値としては、他の有名なモデルと比較しても高いパフォーマンスを示しています。

モデル名	CodeSearchNetスコア
Shuu12121/CodeModernBERT-Owl	76.89
Salesforce/SFR-Embedding-Code-2B_R	73.5
CodeSage-large-v2	94.26
Salesforce/SFR-Embedding-Code-400M_R	72.53
CodeSage-large	90.58
Voyage-Code-002	81.79
E5-Mistral	54.25
E5-Base-v2	67.99
OpenAI-Ada-002	74.21
BGE-Base-en-v1.5	69.6
BGE-M3	43.23
UniXcoder	60.2
GTE-Base-en-v1.5	43.35
Contriever	34.72

モデル詳細

属性	詳情
モデルタイプ	Sentence Transformer
ベースモデル	Shuu12121/CodeModernBERT-Owl
最大シーケンス長	2048 tokens
出力次元	768 dimensions
類似度関数	Cosine Similarity
ライセンス	Apache-2.0

ライブラリバージョン

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.50.0
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.4.1
Tokenizers: 0.21.1

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📖 引用情報

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}