C

Codesearch ModernBERT Owl 2.0 Plus

由 Shuu12121 开发
专为高质量代码理解和语义检索设计的最新预训练模型,支持8种编程语言的长序列处理。
下载量 602
发布时间 : 5/26/2025

模型简介

该模型用于函数级别的语义代码搜索,支持从自然语言到代码的搜索,同时可用于代码补全、摘要生成、分类和克隆检测等任务。

模型特点

自有语料库预训练
使用完全自主收集的高质量代码和文档字符串语料库进行预训练,规模约为CodeBERT的四倍。
多语言支持
支持8种编程语言,包括新增的TypeScript。
长序列处理能力
训练时可处理最长2048个标记的序列,推理时可扩展到处理8192个标记。
全面数据清洗
包括使用Tree-sitter提取函数和文档字符串,去除模板化或非英语注释,对敏感信息进行掩码处理等。

模型能力

函数级语义代码搜索
代码补全
代码摘要生成
代码分类
代码克隆检测
RAG系统检索支持

使用案例

代码搜索与理解
自然语言代码搜索
使用自然语言搜索代码库,快速定位到相关函数。
通过OwlSpotlight扩展实现高效代码检索。
代码辅助开发
代码补全
基于上下文提供代码补全建议。
代码摘要生成
自动生成代码的摘要说明。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase