Skywork SWE 32B GGUF
Skywork-SWE-32B是由Skywork AI开发的代码智能体模型,专为软件工程任务设计,在代码生成和问题修复等任务上表现出色。
下载量 308
发布时间 : 6/19/2025
模型简介
专为软件工程任务设计的大语言模型,擅长代码生成、问题修复等软件开发相关任务,提供高效支持。
模型特点
高性能表现
在SWE-bench Verified基准测试中达到38.0%的pass@1准确率,超越同类模型
测试时缩放技术
结合测试时缩放技术后准确率可提高到47.0%,性能进一步提升
数据缩放定律验证
清晰展示了大语言模型中软件工程能力的数据缩放定律现象
高效数据收集管道
引入自动化软件工程数据收集管道,创建大规模高质量数据集
模型能力
代码生成
软件问题修复
编程任务解决
代码理解
使用案例
软件开发
开源项目问题修复
自动修复Django、Matplotlib等开源项目中的问题
在Django项目中达到42.86%的解决率
代码补全
为开发者提供智能代码补全功能
🚀 Skywork-SWE
Skywork-SWE-32B 是由 Skywork AI 开发的代码智能体模型,专为软件工程(SWE)任务设计。它在多个关键指标上表现出色,能有效解决软件工程中的代码生成、问题修复等任务,为软件开发提供高效的支持。
✨ 主要特性
- 高性能表现:Skywork-SWE-32B 在 SWE-bench Verified 基准测试中达到了 38.0% 的 pass@1 准确率,超越了之前基于 OpenHands 智能体框架构建的开源最优模型 Qwen2.5-Coder-32B。
- 性能进一步提升:结合测试时缩放技术,其准确率进一步提高到 47.0%,超过了之前参数少于 320 亿模型的最优结果。
- 数据缩放定律验证:清晰展示了大语言模型中软件工程能力的数据缩放定律现象,在收集的 8209 条训练轨迹中没有出现饱和迹象。
- 高效数据收集管道:引入了高效且自动化的软件工程数据收集管道,创建了 Skywork-SWE 数据集,这是一个大规模、高质量且具有完整可执行运行时环境的数据集。
📋 模型详情
模型名称 | 基础大语言模型 | HuggingFace 链接 | 技术报告 | 博客 |
---|---|---|---|---|
Skywork-SWE-32B | 🤖 Qwen2.5-Coder-32B-Instruct | 🤖 Skywork-SWE-32B | 技术报告 | 博客 |
📊 评估
基于 OpenHands v0.32.0 代码智能体框架,在基于 Qwen2.5-Coder-32B 的大语言模型上进行 Pass@1 准确率的数据缩放定律评估。Skywork-SWE-32B 显著优于之前基于 Qwen2.5-Coder-32B 的大语言模型,在不使用验证器或多次滚动的情况下实现了最高的 pass@1 准确率。
结合测试时缩放技术后,Skywork-SWE-32B 的准确率进一步提高到 47.0%,超过了之前参数少于 320 亿模型的最优结果。
📈 性能总结
- Skywork-SWE-32B:
SWE-bench 验证集提交总结
==================================================
解决实例数:190 (38.0%)
==================================================
按仓库解决情况:
- astropy/astropy: 4/22 (18.18%)
- django/django: 99/231 (42.86%)
- matplotlib/matplotlib: 9/34 (26.47%)
- mwaskom/seaborn: 0/2 (0.0%)
- pallets/flask: 1/1 (100.0%)
- psf/requests: 4/8 (50.0%)
- pydata/xarray: 7/22 (31.82%)
- pylint-dev/pylint: 2/10 (20.0%)
- pytest-dev/pytest: 9/19 (47.37%)
- scikit-learn/scikit-learn: 17/32 (53.12%)
- sphinx-doc/sphinx: 13/44 (29.55%)
- sympy/sympy: 25/75 (33.33%)
==================================================
按时间解决情况:
- 2013: 2/3 (66.67%)
- 2014: 2/2 (100.0%)
- 2015: 0/1 (0.0%)
- 2016: 2/2 (100.0%)
- 2017: 5/16 (31.25%)
- 2018: 7/24 (29.17%)
- 2019: 46/98 (46.94%)
- 2020: 43/108 (39.81%)
- 2021: 27/86 (31.4%)
- 2022: 35/102 (34.31%)
- 2023: 21/58 (36.21%)
- Skywork-SWE-32B + TTS (Bo8):
SWE-bench 验证集提交总结
==================================================
解决实例数:235 (47.0%)
==================================================
按仓库解决情况:
- astropy/astropy: 8/22 (36.36%)
- django/django: 115/231 (49.78%)
- matplotlib/matplotlib: 15/34 (44.12%)
- mwaskom/seaborn: 0/2 (0.0%)
- pallets/flask: 1/1 (100.0%)
- psf/requests: 3/8 (37.5%)
- pydata/xarray: 14/22 (63.64%)
- pylint-dev/pylint: 4/10 (40.0%)
- pytest-dev/pytest: 10/19 (52.63%)
- scikit-learn/scikit-learn: 22/32 (68.75%)
- sphinx-doc/sphinx: 12/44 (27.27%)
- sympy/sympy: 31/75 (41.33%)
==================================================
按时间解决情况:
- 2013: 1/3 (33.33%)
- 2014: 1/2 (50.0%)
- 2015: 0/1 (0.0%)
- 2016: 2/2 (100.0%)
- 2017: 6/16 (37.5%)
- 2018: 9/24 (37.5%)
- 2019: 52/98 (53.06%)
- 2020: 48/108 (44.44%)
- 2021: 40/86 (46.51%)
- 2022: 46/102 (45.1%)
- 2023: 30/58 (51.72%)
💻 使用示例
基础用法
安装 vLLM 包
# 安装 vLLM 版本 0.9.0.1。
# 例如,如果你的 CUDA 版本是 12.8,使用以下命令:
pip install vllm==0.9.0.1 --extra-index-url https://download.pytorch.org/whl/cu128
启动服务器部署 Skywork-SWE-32B
vllm serve ${MODEL_PATH} —served-model-name ${SERVED_MODEL_NAME} --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.95 --tensor-parallel-size 8
由于该模型有 320 亿参数且支持 32K 上下文长度,建议使用至少 2 块配备足够显存的 GPU 启动模型服务器,以确保高效推理。
设置 OpenHands 框架
git clone https://github.com/All-Hands-AI/OpenHands.git
cd OpenHands
git checkout tags/0.32.0
make build
OpenHands 的官方文档:使用 OpenHands SWE-Bench Docker 镜像进行 SWE-Bench 评估
创建相应的配置文件:
[core]
workspace_base="./workspace"
[llm.my-oss-model]
model = "openai/${SERVED_MODEL_NAME}"
base_url = "http://0.0.0.0:8000/v1"
api_key="vllm"
max_message_chars=32768
max_input_tokens=32768
max_output_tokens=8192
log_completions=true
temperature=0.0
在 SWE-Bench 实例上进行推理
./evaluation/benchmarks/swe_bench/scripts/run_infer.sh [model_config] [git-version] [agent] [eval_limit] [max_iter] [num_workers] [dataset] [dataset_split]
# 示例
./evaluation/benchmarks/swe_bench/scripts/run_infer.sh llm.my-oss-model HEAD CodeActAgent 500 100 1 princeton-nlp/SWE-bench_Verified test
评估生成的补丁
./evaluation/benchmarks/swe_bench/scripts/eval_infer.sh \
./evaluation_outputs/outputs/princeton-nlp__SWE-bench_Lite-test/CodeActAgent/my-oss-model_maxiter_100_N_v0.32.0-no-hint-run_1/output.jsonl
高级用法
如果你想使用测试时缩放技术(基于批评模型的 N 选优方法)运行 OpenHands 智能体,请参考 博客 获取详细说明。你需要切换到 feature/llm-critic 分支并相应地部署 批评模型。此外,需要在配置文件中添加以下参数:
use_critic=true
critic_model="critic_model"
critic_base_url="**********"
critic_api_key="************"
critic_num_candidates=2
🙏 致谢
感谢 OpenHands 和 AllHands Critic 仓库的贡献者们,感谢他们的开放研究和宝贵贡献。
📚 引用
如果你在研究中使用了 Skywork-SWE,请考虑使用以下 BibTeX 条目引用我们的工作:
@misc{skywork-swe,
title={Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs},
author={Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, and Yahui Zhou},
howpublished={\url{https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd}},
note={Notion Blog},
year={2025},
}
📄 许可证
本项目采用 Apache-2.0 许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98