Codesearch ModernBERT Owl 2.0 Plus
專為高質量代碼理解和語義檢索設計的最新預訓練模型,支持8種編程語言的長序列處理。
下載量 602
發布時間 : 5/26/2025
模型概述
該模型用於函數級別的語義代碼搜索,支持從自然語言到代碼的搜索,同時可用於代碼補全、摘要生成、分類和克隆檢測等任務。
模型特點
自有語料庫預訓練
使用完全自主收集的高質量代碼和文檔字符串語料庫進行預訓練,規模約為CodeBERT的四倍。
多語言支持
支持8種編程語言,包括新增的TypeScript。
長序列處理能力
訓練時可處理最長2048個標記的序列,推理時可擴展到處理8192個標記。
全面數據清洗
包括使用Tree-sitter提取函數和文檔字符串,去除模板化或非英語註釋,對敏感信息進行掩碼處理等。
模型能力
函數級語義代碼搜索
代碼補全
代碼摘要生成
代碼分類
代碼克隆檢測
RAG系統檢索支持
使用案例
代碼搜索與理解
自然語言代碼搜索
使用自然語言搜索代碼庫,快速定位到相關函數。
通過OwlSpotlight擴展實現高效代碼檢索。
代碼輔助開發
代碼補全
基於上下文提供代碼補全建議。
代碼摘要生成
自動生成代碼的摘要說明。
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98