Codesearch ModernBERT Owl 2.0 Plus
高品質のコード理解と意味検索のために設計された最新の事前学習モデルで、8種類のプログラミング言語の長シーケンス処理をサポートします。
ダウンロード数 602
リリース時間 : 5/26/2025
モデル概要
このモデルは関数レベルの意味コード検索に使用され、自然言語からコードへの検索をサポートし、同時にコード補完、要約生成、分類、クローン検出などのタスクにも使用できます。
モデル特徴
独自コーパス事前学習
完全に自主収集した高品質のコードとドキュメント文字列のコーパスを使用して事前学習し、規模はCodeBERTの約4倍です。
多言語サポート
8種類のプログラミング言語をサポートし、新たにTypeScriptも含まれます。
長シーケンス処理能力
学習時には最大2048トークンのシーケンスを処理でき、推論時には8192トークンのシーケンスを処理できるように拡張できます。
全面的なデータクリーニング
Tree - sitterを使用して関数とドキュメント文字列を抽出し、テンプレート化されたまたは英語以外のコメントを削除し、機密情報をマスクするなどが含まれます。
モデル能力
関数レベルの意味コード検索
コード補完
コード要約生成
コード分類
コードクローン検出
RAGシステム検索サポート
使用事例
コード検索と理解
自然言語コード検索
自然言語を使用してコードライブラリを検索し、関連する関数をすばやく見つけます。
OwlSpotlight拡張を通じて効率的なコード検索を実現します。
コード開発支援
コード補完
コンテキストに基づいてコード補完の提案を提供します。
コード要約生成
コードの要約説明を自動生成します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98