C

Codesearch ModernBERT Owl 2.0 Plus

由Shuu12121開發
專為高質量代碼理解和語義檢索設計的最新預訓練模型,支持8種編程語言的長序列處理。
下載量 602
發布時間 : 5/26/2025

模型概述

該模型用於函數級別的語義代碼搜索,支持從自然語言到代碼的搜索,同時可用於代碼補全、摘要生成、分類和克隆檢測等任務。

模型特點

自有語料庫預訓練
使用完全自主收集的高質量代碼和文檔字符串語料庫進行預訓練,規模約為CodeBERT的四倍。
多語言支持
支持8種編程語言,包括新增的TypeScript。
長序列處理能力
訓練時可處理最長2048個標記的序列,推理時可擴展到處理8192個標記。
全面數據清洗
包括使用Tree-sitter提取函數和文檔字符串,去除模板化或非英語註釋,對敏感信息進行掩碼處理等。

模型能力

函數級語義代碼搜索
代碼補全
代碼摘要生成
代碼分類
代碼克隆檢測
RAG系統檢索支持

使用案例

代碼搜索與理解
自然語言代碼搜索
使用自然語言搜索代碼庫,快速定位到相關函數。
通過OwlSpotlight擴展實現高效代碼檢索。
代碼輔助開發
代碼補全
基於上下文提供代碼補全建議。
代碼摘要生成
自動生成代碼的摘要說明。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase