CodeSearch-ModernBERT-Owl-2.0-Plusオープンソースコードモデル - 8種類の言語の長シーケンスセマンティック検索を無料でサポート

ホーム

Codesearch ModernBERT Owl 2.0 Plus

Shuu12121によって開発

高品質のコード理解と意味検索のために設計された最新の事前学習モデルで、8種類のプログラミング言語の長シーケンス処理をサポートします。

テキスト埋め込みオープンソースライセンス:Apache-2.0 #関数レベルの意味検索 #多言語コード理解 #長シーケンス処理

ダウンロード数 602

リリース時間 : 5/26/2025

モデル概要

このモデルは関数レベルの意味コード検索に使用され、自然言語からコードへの検索をサポートし、同時にコード補完、要約生成、分類、クローン検出などのタスクにも使用できます。

モデル特徴

独自コーパス事前学習

完全に自主収集した高品質のコードとドキュメント文字列のコーパスを使用して事前学習し、規模はCodeBERTの約4倍です。

多言語サポート

8種類のプログラミング言語をサポートし、新たにTypeScriptも含まれます。

長シーケンス処理能力

学習時には最大2048トークンのシーケンスを処理でき、推論時には8192トークンのシーケンスを処理できるように拡張できます。

全面的なデータクリーニング

Tree - sitterを使用して関数とドキュメント文字列を抽出し、テンプレート化されたまたは英語以外のコメントを削除し、機密情報をマスクするなどが含まれます。

モデル能力

関数レベルの意味コード検索

コード補完

コード要約生成

コード分類

コードクローン検出

RAGシステム検索サポート

使用事例

コード検索と理解

自然言語コード検索

自然言語を使用してコードライブラリを検索し、関連する関数をすばやく見つけます。

OwlSpotlight拡張を通じて効率的なコード検索を実現します。

コード開発支援

コード補完

コンテキストに基づいてコード補完の提案を提供します。

コード要約生成

コードの要約説明を自動生成します。

🚀 🦉 CodeSearch-ModernBERT-Owl-2.0-Plus

Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus は、マルチリンガルなコード理解・検索のために設計された CodeModernBERT-Owl 系列の最新事前学習モデルです。本モデルは、VSCode拡張機能 OwlSpotlight にて使用されており、関数レベルの意味的コード検索を実現します。

✨ 主な機能

独自コーパスで事前学習
CodeBERT (Feng et al., 2020) の約4倍の規模となる、完全独自収集の高品質なコード・docstringコーパスを用いて事前学習。
8言語対応
Python, Java, JavaScript, PHP, Ruby, Go, Rust に加えて、TypeScript を新たにサポート。
長文対応（最大8192トークン）
訓練時最大2048トークン、推論時には8192トークンまでの入力を処理可能（Position Embedding拡張済み）。
徹底したノイズ除去・データクリーニング
- Tree-sitter による関数・docstring抽出
- 無意味な定型コメント・多言語ノイズの除去
- シークレット・APIキーの自動マスキング
- ライセンス記述の除外
- 重複関数の除去によるリーク対策

📦 インストール

このセクションでは、READMEにインストール手順が記載されていないため、省略します。

📚 ドキュメント

📦 基本情報

項目	内容
モデル名	Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus
モデルサイズ	約150Mパラメータ（ModernBERTベース）
対応言語	Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript
最大トークン長	学習時: 2048 / 推論時: 8192
トークナイザ	独自BPE（50,000語彙）