Codesearch ModernBERT Owl 2.0 Plus
专为高质量代码理解和语义检索设计的最新预训练模型,支持8种编程语言的长序列处理。
下载量 602
发布时间 : 5/26/2025
模型简介
该模型用于函数级别的语义代码搜索,支持从自然语言到代码的搜索,同时可用于代码补全、摘要生成、分类和克隆检测等任务。
模型特点
自有语料库预训练
使用完全自主收集的高质量代码和文档字符串语料库进行预训练,规模约为CodeBERT的四倍。
多语言支持
支持8种编程语言,包括新增的TypeScript。
长序列处理能力
训练时可处理最长2048个标记的序列,推理时可扩展到处理8192个标记。
全面数据清洗
包括使用Tree-sitter提取函数和文档字符串,去除模板化或非英语注释,对敏感信息进行掩码处理等。
模型能力
函数级语义代码搜索
代码补全
代码摘要生成
代码分类
代码克隆检测
RAG系统检索支持
使用案例
代码搜索与理解
自然语言代码搜索
使用自然语言搜索代码库,快速定位到相关函数。
通过OwlSpotlight扩展实现高效代码检索。
代码辅助开发
代码补全
基于上下文提供代码补全建议。
代码摘要生成
自动生成代码的摘要说明。
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98