模型概述
模型特點
模型能力
使用案例
🚀 openhands-lm-7b-v0.1 GGUF模型
OpenHands LM是一款全新的開源編碼模型,它基於Qwen Coder 2.5 Instruct 32B構建,通過特殊的微調過程,在軟件工程任務中表現出色。該模型不僅開源且可在本地運行,還具有合理的規模,適合在單塊3090 GPU等硬件上部署。
🚀 快速開始
選擇合適的模型格式
選擇正確的模型格式取決於你的硬件能力和內存限制。
BF16(Brain Float 16) – 若支持BF16加速則使用
- 一種16位浮點格式,專為更快的計算而設計,同時保持良好的精度。
- 提供與FP32 相似的動態範圍,但內存使用更低。
- 如果你的硬件支持BF16加速(請查看設備規格),建議使用。
- 與FP32相比,適用於具有減少內存佔用的高性能推理。
使用BF16的情況:
- 你的硬件具有原生BF16支持(例如,較新的GPU、TPU)。
- 你希望在節省內存的同時獲得更高的精度。
- 你計劃將模型重新量化為其他格式。
避免使用BF16的情況:
- 你的硬件不支持BF16(可能會回退到FP32並運行較慢)。
- 你需要與缺乏BF16優化的舊設備兼容。
F16(Float 16) – 比BF16更廣泛支持
- 一種16位浮點格式,精度高,但取值範圍比BF16小。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以進行推理。
使用F16的情況:
- 你的硬件支持FP16但不支持BF16。
- 你需要在速度、內存使用和準確性之間取得平衡。
- 你在GPU或其他針對FP16計算優化的設備上運行。
避免使用F16的情況:
- 你的設備缺乏原生FP16支持(可能會比預期運行得慢)。
- 你有內存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用於CPU和低顯存推理
量化可以在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) – 內存使用最少,但精度可能較低。
- 高比特模型(Q6_K、Q8_0) – 準確性更好,但需要更多內存。
使用量化模型的情況:
- 你在CPU上運行推理,並且需要優化的模型。
- 你的設備顯存較低,無法加載全精度模型。
- 你希望在保持合理準確性的同時減少內存佔用。
避免使用量化模型的情況:
- 你需要最高的準確性(全精度模型更適合)。
- 你的硬件有足夠的顯存來支持更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極端內存效率進行了優化,非常適合低功耗設備或內存是關鍵限制因素的大規模部署。
-
IQ3_XS:超低比特量化(3位),具有極高的內存效率。
- 用例:最適合超低內存設備,即使Q4_K也太大的情況。
- 權衡:與高比特量化相比,準確性較低。
-
IQ3_S:小塊大小,以實現最大內存效率。
- 用例:最適合低內存設備,當IQ3_XS過於激進時。
-
IQ3_M:中等塊大小,比IQ3_S具有更好的準確性。
- 用例:適用於低內存設備,當IQ3_S過於受限的情況。
-
Q4_K:4位量化,具有逐塊優化以提高準確性。
- 用例:最適合低內存設備,當Q6_K太大的情況。
-
Q4_0:純4位量化,針對ARM設備進行了優化。
- 用例:最適合基於ARM的設備或低內存環境。
總結表:模型格式選擇
屬性 | 詳情 |
---|---|
BF16 | 精度最高,內存使用高,需要支持BF16的GPU/CPU,適用於減少內存的高速推理 |
F16 | 精度高,內存使用高,需要支持FP16的設備,適用於BF16不可用時的GPU推理 |
Q4_K | 精度中低,內存使用低,適用於CPU或低顯存設備,最適合內存受限的環境 |
Q6_K | 精度中等,內存使用適中,適用於內存更多的CPU,在量化的同時具有更好的準確性 |
Q8_0 | 精度高,內存使用適中,適用於有足夠顯存的CPU或GPU,是量化模型中準確性最好的 |
IQ3_XS | 精度極低,內存使用極低,適用於超低內存設備,具有極高的內存效率和低準確性 |
Q4_0 | 精度低,內存使用低,適用於ARM或低內存設備,llama.cpp可以針對ARM設備進行優化 |
包含的文件及詳情
openhands-lm-7b-v0.1-bf16.gguf
- 模型權重以BF16格式保存。
- 如果你想將模型重新量化為不同的格式,請使用此文件。
- 如果你的設備支持BF16加速,則最佳選擇。
openhands-lm-7b-v0.1-f16.gguf
- 模型權重以F16格式存儲。
- 如果你的設備支持FP16,特別是當BF16不可用時,請使用此文件。
openhands-lm-7b-v0.1-bf16-q8_0.gguf
- 輸出和嵌入保持為BF16。
- 所有其他層量化為Q8_0。
- 如果你的設備支持BF16,並且你想要一個量化版本,請使用此文件。
openhands-lm-7b-v0.1-f16-q8_0.gguf
- 輸出和嵌入保持為F16。
- 所有其他層量化為Q8_0。
openhands-lm-7b-v0.1-q4_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q4_K。
- 適用於內存有限的CPU推理。
openhands-lm-7b-v0.1-q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價使用更少的內存。
- 最適合極低內存設置。
openhands-lm-7b-v0.1-q6_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q6_K。
openhands-lm-7b-v0.1-q8_0.gguf
- 完全Q8量化的模型,以提高準確性。
- 需要更多內存,但提供更高的精度。
openhands-lm-7b-v0.1-iq3_xs.gguf
- IQ3_XS量化,針對極端內存效率進行了優化。
- 最適合超低內存設備。
openhands-lm-7b-v0.1-iq3_m.gguf
- IQ3_M量化,提供中等塊大小以提高準確性。
- 適用於低內存設備。
openhands-lm-7b-v0.1-q4_0.gguf
- 純Q4_0量化,針對ARM設備進行了優化。
- 最適合低內存環境。
- 若追求更高準確性,建議使用IQ4_NL。
測試模型
如果你覺得這些模型有用,請點擊“點贊”!同時,幫助我測試我的由AI驅動的網絡監控助手,進行量子就緒安全檢查: 免費網絡監控器
測試方法:
- 點擊聊天圖標(任何頁面的右下角)
- 選擇一個AI助手類型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(開源)TestLLM
(僅支持CPU的實驗性模型)
測試內容
我正在挑戰小型開源模型在AI網絡監控中的極限,具體包括:
- 針對即時網絡服務進行函數調用
- 探索模型可以多小,同時仍然能夠處理:
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成
TestLLM – 當前的實驗性模型(在6個CPU線程上運行llama.cpp)
- 零配置設置
- 加載時間約30秒(推理速度慢,但無API成本)
- 尋求幫助! 如果你對邊緣設備AI感興趣,讓我們一起合作!
其他助手
-
TurboLLM – 使用gpt - 4 - mini進行:
- 即時網絡診斷
- 自動化滲透測試(Nmap/Metasploit)
- 通過下載我們的免費網絡監控代理獲取更多令牌
-
HugLLM – 開源模型(約8B參數):
- 令牌數量是TurboLLM的2倍
- 由AI驅動的日誌分析
- 在Hugging Face推理API上運行
示例AI命令測試
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
- '"Create a cmd processor to .. (what ever you want)" 注意:你需要安裝免費的網絡監控代理才能運行.net代碼。這是一個非常靈活和強大的功能,請謹慎使用!
最後說明
我自掏腰包為服務器提供資金,用於創建模型文件、運行免費網絡監控服務以及支付來自Novita和OpenAI的推理費用。所有創建模型的代碼和我在免費網絡監控方面所做的工作都是開源的。你可以自由使用你認為有用的內容。如果你願意支持我的工作,請考慮請我喝杯咖啡,這將幫助我支付服務費用並提高每個人的令牌限制。
感謝你的支持!
模型介紹
這是一個較小的7B模型,按照[all - hands/openhands - lm - 32b - v0.1](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)的方法進行訓練。
自主軟件開智能體已經在[廣泛的軟件開發任務](/blog/8 - use - cases - for - generalist - software - development - agents)中發揮作用。但到目前為止,強大的編碼智能體依賴於專有模型,這意味著即使你使用像[OpenHands](https://github.com/All - Hands - AI/OpenHands)這樣的開源智能體,仍然需要依賴外部服務的API調用。
現在,我們很高興推出OpenHands LM,這是一個新的開源編碼模型,具有以下特點:
- 開源且可在[Hugging Face](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)上獲取,你可以下載並在本地運行。
- 規模適中,為32B,可以在單塊3090 GPU等硬件上本地運行。
- 在軟件工程任務中表現出色,在SWE - Bench Verified上的解決率達到37.2%。
什麼是OpenHands LM?
OpenHands LM基於[Qwen Coder 2.5 Instruct 32B](https://huggingface.co/Qwen/Qwen2.5 - Coder - 32B - Instruct)構建,利用其強大的編碼基礎能力。OpenHands LM的獨特之處在於我們的特殊微調過程:
- 我們使用OpenHands本身在各種開源倉庫上生成的訓練數據。
- 具體來說,我們使用SWEGym中概述的基於強化學習的框架,設置訓練環境,使用現有智能體生成訓練數據,然後在成功解決的示例上對模型進行微調。
- 它具有128K的令牌上下文窗口,非常適合處理大型代碼庫和長期的軟件工程任務。
性能:超越預期
我們使用最新的[迭代評估協議](https://github.com/All - Hands - AI/OpenHands/tree/main/evaluation/benchmarks/swe_bench#run - inference - rollout - on - swe - bench - instances - generate - patch - from - problem - statement)在SWE - Bench Verified基準測試上對OpenHands LM進行了評估。
結果令人印象深刻:
- 在SWE - Bench Verified上的驗證解決率為37.2%。
- 性能與參數數量多20倍的模型相當,包括具有671B參數的Deepseek V3 0324(38.8%)。
以下是OpenHands LM與其他領先的開源模型的比較: 
如圖所示,我們的32B參數模型實現了接近更大模型的效率。雖然最大的模型(671B參數)得分略高,但我們的32B參數模型表現出色,為無法使用更大模型的本地部署提供了可能性。
立即開始使用OpenHands LM
你可以通過以下方式立即開始使用OpenHands LM:
- 從Hugging Face下載模型 模型可在[Hugging Face](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)上獲取,可直接從那裡下載。
- 使用模型服務框架創建與OpenAI兼容的端點 為了獲得最佳性能,建議使用[SLang](https://github.com/sgl - project/sglang)或[vLLM](https://github.com/vllm - project/vllm)在GPU上部署此模型。
- 將你的OpenHands智能體指向新模型 下載[OpenHands](https://github.com/All - Hands - AI/OpenHands),並按照[使用與OpenAI兼容的端點](https://docs.all - hands.dev/modules/usage/llms/openai - llms#using - openai - compatible - endpoints)的說明進行操作。
未來發展計劃
這個初始版本只是我們旅程的開始。我們將根據社區反饋和持續的研究計劃繼續改進OpenHands LM。
需要注意的是,該模型仍處於研究預覽階段,(1) 可能最適合解決GitHub問題的任務,在更多樣化的軟件工程任務中表現可能不佳;(2) 有時可能會生成重複的步驟;(3) 對量化有些敏感,在較低的量化級別下可能無法發揮全部性能。我們的下一個版本將專注於解決這些限制。
我們還在開發更緊湊的模型版本(包括7B參數的變體),以支持計算資源有限的用戶。這些較小的模型將保留OpenHands LM的核心優勢,同時大幅降低硬件要求。
我們鼓勵你嘗試OpenHands LM,分享你的經驗,並參與其發展。讓我們共同為未來的軟件開發創造更好的工具。
嘗試OpenHands Cloud
雖然OpenHands LM是一個強大的本地運行模型,但我們還提供了一個完全託管的雲解決方案,使你更輕鬆地將AI應用於軟件開發需求。
[OpenHands Cloud](https://www.all - hands.dev/blog/introducing - the - openhands - cloud)提供:
- 與GitHub無縫集成,支持問題和拉取請求。
- 多種交互方式,包括文本、語音和移動設備。
- 並行智能體功能,可同時處理多個任務。
- 無需管理基礎設施,即可享受OpenHands的所有功能。
OpenHands Cloud基於與我們的開源解決方案相同的技術構建,但為希望使用現成平臺的團隊和個人添加了便捷功能。[訪問app.all - hands.dev](https://app.all - hands.dev)立即開始使用!
加入我們的社區
我們邀請你加入OpenHands LM的發展之旅:
- 探索我們的[GitHub倉庫](https://github.com/All - Hands - AI/OpenHands)
- 在[Slack](https://join.slack.com/t/openhands - ai/shared_invite/zt - 2tom0er4l - JeNUGHt_AxpEfIBstbLPiw)上與我們交流
- 遵循我們的[文檔](https://docs.all - hands.dev)開始使用
通過分享你的經驗和反饋,你將幫助塑造這個開源項目的未來。讓我們共同為未來的軟件開發創造更好的工具。
我們期待看到你使用OpenHands LM創造出的成果!
📄 許可證
本項目採用MIT許可證。



