Skywork SWE 32B GGUF
Skywork-SWE-32B是由Skywork AI開發的代碼智能體模型,專為軟件工程任務設計,在代碼生成和問題修復等任務上表現出色。
下載量 308
發布時間 : 6/19/2025
模型概述
專為軟件工程任務設計的大語言模型,擅長代碼生成、問題修復等軟件開發相關任務,提供高效支持。
模型特點
高性能表現
在SWE-bench Verified基準測試中達到38.0%的pass@1準確率,超越同類模型
測試時縮放技術
結合測試時縮放技術後準確率可提高到47.0%,性能進一步提升
數據縮放定律驗證
清晰展示了大語言模型中軟件工程能力的數據縮放定律現象
高效數據收集管道
引入自動化軟件工程數據收集管道,創建大規模高質量數據集
模型能力
代碼生成
軟件問題修復
編程任務解決
代碼理解
使用案例
軟件開發
開源項目問題修復
自動修復Django、Matplotlib等開源項目中的問題
在Django項目中達到42.86%的解決率
代碼補全
為開發者提供智能代碼補全功能
🚀 Skywork-SWE
Skywork-SWE-32B 是由 Skywork AI 開發的代碼智能體模型,專為軟件工程(SWE)任務設計。它在多個關鍵指標上表現出色,能有效解決軟件工程中的代碼生成、問題修復等任務,為軟件開發提供高效的支持。
✨ 主要特性
- 高性能表現:Skywork-SWE-32B 在 SWE-bench Verified 基準測試中達到了 38.0% 的 pass@1 準確率,超越了之前基於 OpenHands 智能體框架構建的開源最優模型 Qwen2.5-Coder-32B。
- 性能進一步提升:結合測試時縮放技術,其準確率進一步提高到 47.0%,超過了之前參數少於 320 億模型的最優結果。
- 數據縮放定律驗證:清晰展示了大語言模型中軟件工程能力的數據縮放定律現象,在收集的 8209 條訓練軌跡中沒有出現飽和跡象。
- 高效數據收集管道:引入了高效且自動化的軟件工程數據收集管道,創建了 Skywork-SWE 數據集,這是一個大規模、高質量且具有完整可執行運行時環境的數據集。
📋 模型詳情
模型名稱 | 基礎大語言模型 | HuggingFace 鏈接 | 技術報告 | 博客 |
---|---|---|---|---|
Skywork-SWE-32B | 🤖 Qwen2.5-Coder-32B-Instruct | 🤖 Skywork-SWE-32B | 技術報告 | 博客 |
📊 評估
基於 OpenHands v0.32.0 代碼智能體框架,在基於 Qwen2.5-Coder-32B 的大語言模型上進行 Pass@1 準確率的數據縮放定律評估。Skywork-SWE-32B 顯著優於之前基於 Qwen2.5-Coder-32B 的大語言模型,在不使用驗證器或多次滾動的情況下實現了最高的 pass@1 準確率。
結合測試時縮放技術後,Skywork-SWE-32B 的準確率進一步提高到 47.0%,超過了之前參數少於 320 億模型的最優結果。
📈 性能總結
- Skywork-SWE-32B:
SWE-bench 驗證集提交總結
==================================================
解決實例數:190 (38.0%)
==================================================
按倉庫解決情況:
- astropy/astropy: 4/22 (18.18%)
- django/django: 99/231 (42.86%)
- matplotlib/matplotlib: 9/34 (26.47%)
- mwaskom/seaborn: 0/2 (0.0%)
- pallets/flask: 1/1 (100.0%)
- psf/requests: 4/8 (50.0%)
- pydata/xarray: 7/22 (31.82%)
- pylint-dev/pylint: 2/10 (20.0%)
- pytest-dev/pytest: 9/19 (47.37%)
- scikit-learn/scikit-learn: 17/32 (53.12%)
- sphinx-doc/sphinx: 13/44 (29.55%)
- sympy/sympy: 25/75 (33.33%)
==================================================
按時間解決情況:
- 2013: 2/3 (66.67%)
- 2014: 2/2 (100.0%)
- 2015: 0/1 (0.0%)
- 2016: 2/2 (100.0%)
- 2017: 5/16 (31.25%)
- 2018: 7/24 (29.17%)
- 2019: 46/98 (46.94%)
- 2020: 43/108 (39.81%)
- 2021: 27/86 (31.4%)
- 2022: 35/102 (34.31%)
- 2023: 21/58 (36.21%)
- Skywork-SWE-32B + TTS (Bo8):
SWE-bench 驗證集提交總結
==================================================
解決實例數:235 (47.0%)
==================================================
按倉庫解決情況:
- astropy/astropy: 8/22 (36.36%)
- django/django: 115/231 (49.78%)
- matplotlib/matplotlib: 15/34 (44.12%)
- mwaskom/seaborn: 0/2 (0.0%)
- pallets/flask: 1/1 (100.0%)
- psf/requests: 3/8 (37.5%)
- pydata/xarray: 14/22 (63.64%)
- pylint-dev/pylint: 4/10 (40.0%)
- pytest-dev/pytest: 10/19 (52.63%)
- scikit-learn/scikit-learn: 22/32 (68.75%)
- sphinx-doc/sphinx: 12/44 (27.27%)
- sympy/sympy: 31/75 (41.33%)
==================================================
按時間解決情況:
- 2013: 1/3 (33.33%)
- 2014: 1/2 (50.0%)
- 2015: 0/1 (0.0%)
- 2016: 2/2 (100.0%)
- 2017: 6/16 (37.5%)
- 2018: 9/24 (37.5%)
- 2019: 52/98 (53.06%)
- 2020: 48/108 (44.44%)
- 2021: 40/86 (46.51%)
- 2022: 46/102 (45.1%)
- 2023: 30/58 (51.72%)
💻 使用示例
基礎用法
安裝 vLLM 包
# 安裝 vLLM 版本 0.9.0.1。
# 例如,如果你的 CUDA 版本是 12.8,使用以下命令:
pip install vllm==0.9.0.1 --extra-index-url https://download.pytorch.org/whl/cu128
啟動服務器部署 Skywork-SWE-32B
vllm serve ${MODEL_PATH} —served-model-name ${SERVED_MODEL_NAME} --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.95 --tensor-parallel-size 8
由於該模型有 320 億參數且支持 32K 上下文長度,建議使用至少 2 塊配備足夠顯存的 GPU 啟動模型服務器,以確保高效推理。
設置 OpenHands 框架
git clone https://github.com/All-Hands-AI/OpenHands.git
cd OpenHands
git checkout tags/0.32.0
make build
OpenHands 的官方文檔:使用 OpenHands SWE-Bench Docker 鏡像進行 SWE-Bench 評估
創建相應的配置文件:
[core]
workspace_base="./workspace"
[llm.my-oss-model]
model = "openai/${SERVED_MODEL_NAME}"
base_url = "http://0.0.0.0:8000/v1"
api_key="vllm"
max_message_chars=32768
max_input_tokens=32768
max_output_tokens=8192
log_completions=true
temperature=0.0
在 SWE-Bench 實例上進行推理
./evaluation/benchmarks/swe_bench/scripts/run_infer.sh [model_config] [git-version] [agent] [eval_limit] [max_iter] [num_workers] [dataset] [dataset_split]
# 示例
./evaluation/benchmarks/swe_bench/scripts/run_infer.sh llm.my-oss-model HEAD CodeActAgent 500 100 1 princeton-nlp/SWE-bench_Verified test
評估生成的補丁
./evaluation/benchmarks/swe_bench/scripts/eval_infer.sh \
./evaluation_outputs/outputs/princeton-nlp__SWE-bench_Lite-test/CodeActAgent/my-oss-model_maxiter_100_N_v0.32.0-no-hint-run_1/output.jsonl
高級用法
如果你想使用測試時縮放技術(基於批評模型的 N 選優方法)運行 OpenHands 智能體,請參考 博客 獲取詳細說明。你需要切換到 feature/llm-critic 分支並相應地部署 批評模型。此外,需要在配置文件中添加以下參數:
use_critic=true
critic_model="critic_model"
critic_base_url="**********"
critic_api_key="************"
critic_num_candidates=2
🙏 致謝
感謝 OpenHands 和 AllHands Critic 倉庫的貢獻者們,感謝他們的開放研究和寶貴貢獻。
📚 引用
如果你在研究中使用了 Skywork-SWE,請考慮使用以下 BibTeX 條目引用我們的工作:
@misc{skywork-swe,
title={Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs},
author={Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, and Yahui Zhou},
howpublished={\url{https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd}},
note={Notion Blog},
year={2025},
}
📄 許可證
本項目採用 Apache-2.0 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98