模型简介
模型特点
模型能力
使用案例
🚀 openhands-lm-7b-v0.1 GGUF模型
OpenHands LM是一款全新的开源编码模型,它基于Qwen Coder 2.5 Instruct 32B构建,通过特殊的微调过程,在软件工程任务中表现出色。该模型不仅开源且可在本地运行,还具有合理的规模,适合在单块3090 GPU等硬件上部署。
🚀 快速开始
选择合适的模型格式
选择正确的模型格式取决于你的硬件能力和内存限制。
BF16(Brain Float 16) – 若支持BF16加速则使用
- 一种16位浮点格式,专为更快的计算而设计,同时保持良好的精度。
- 提供与FP32 相似的动态范围,但内存使用更低。
- 如果你的硬件支持BF16加速(请查看设备规格),建议使用。
- 与FP32相比,适用于具有减少内存占用的高性能推理。
使用BF16的情况:
- 你的硬件具有原生BF16支持(例如,较新的GPU、TPU)。
- 你希望在节省内存的同时获得更高的精度。
- 你计划将模型重新量化为其他格式。
避免使用BF16的情况:
- 你的硬件不支持BF16(可能会回退到FP32并运行较慢)。
- 你需要与缺乏BF16优化的旧设备兼容。
F16(Float 16) – 比BF16更广泛支持
- 一种16位浮点格式,精度高,但取值范围比BF16小。
- 适用于大多数支持FP16加速的设备(包括许多GPU和一些CPU)。
- 数值精度略低于BF16,但通常足以进行推理。
使用F16的情况:
- 你的硬件支持FP16但不支持BF16。
- 你需要在速度、内存使用和准确性之间取得平衡。
- 你在GPU或其他针对FP16计算优化的设备上运行。
避免使用F16的情况:
- 你的设备缺乏原生FP16支持(可能会比预期运行得慢)。
- 你有内存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用于CPU和低显存推理
量化可以在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) – 内存使用最少,但精度可能较低。
- 高比特模型(Q6_K、Q8_0) – 准确性更好,但需要更多内存。
使用量化模型的情况:
- 你在CPU上运行推理,并且需要优化的模型。
- 你的设备显存较低,无法加载全精度模型。
- 你希望在保持合理准确性的同时减少内存占用。
避免使用量化模型的情况:
- 你需要最高的准确性(全精度模型更适合)。
- 你的硬件有足够的显存来支持更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极端内存效率进行了优化,非常适合低功耗设备或内存是关键限制因素的大规模部署。
-
IQ3_XS:超低比特量化(3位),具有极高的内存效率。
- 用例:最适合超低内存设备,即使Q4_K也太大的情况。
- 权衡:与高比特量化相比,准确性较低。
-
IQ3_S:小块大小,以实现最大内存效率。
- 用例:最适合低内存设备,当IQ3_XS过于激进时。
-
IQ3_M:中等块大小,比IQ3_S具有更好的准确性。
- 用例:适用于低内存设备,当IQ3_S过于受限的情况。
-
Q4_K:4位量化,具有逐块优化以提高准确性。
- 用例:最适合低内存设备,当Q6_K太大的情况。
-
Q4_0:纯4位量化,针对ARM设备进行了优化。
- 用例:最适合基于ARM的设备或低内存环境。
总结表:模型格式选择
属性 | 详情 |
---|---|
BF16 | 精度最高,内存使用高,需要支持BF16的GPU/CPU,适用于减少内存的高速推理 |
F16 | 精度高,内存使用高,需要支持FP16的设备,适用于BF16不可用时的GPU推理 |
Q4_K | 精度中低,内存使用低,适用于CPU或低显存设备,最适合内存受限的环境 |
Q6_K | 精度中等,内存使用适中,适用于内存更多的CPU,在量化的同时具有更好的准确性 |
Q8_0 | 精度高,内存使用适中,适用于有足够显存的CPU或GPU,是量化模型中准确性最好的 |
IQ3_XS | 精度极低,内存使用极低,适用于超低内存设备,具有极高的内存效率和低准确性 |
Q4_0 | 精度低,内存使用低,适用于ARM或低内存设备,llama.cpp可以针对ARM设备进行优化 |
包含的文件及详情
openhands-lm-7b-v0.1-bf16.gguf
- 模型权重以BF16格式保存。
- 如果你想将模型重新量化为不同的格式,请使用此文件。
- 如果你的设备支持BF16加速,则最佳选择。
openhands-lm-7b-v0.1-f16.gguf
- 模型权重以F16格式存储。
- 如果你的设备支持FP16,特别是当BF16不可用时,请使用此文件。
openhands-lm-7b-v0.1-bf16-q8_0.gguf
- 输出和嵌入保持为BF16。
- 所有其他层量化为Q8_0。
- 如果你的设备支持BF16,并且你想要一个量化版本,请使用此文件。
openhands-lm-7b-v0.1-f16-q8_0.gguf
- 输出和嵌入保持为F16。
- 所有其他层量化为Q8_0。
openhands-lm-7b-v0.1-q4_k.gguf
- 输出和嵌入量化为Q8_0。
- 所有其他层量化为Q4_K。
- 适用于内存有限的CPU推理。
openhands-lm-7b-v0.1-q4_k_s.gguf
- 最小的Q4_K变体,以牺牲准确性为代价使用更少的内存。
- 最适合极低内存设置。
openhands-lm-7b-v0.1-q6_k.gguf
- 输出和嵌入量化为Q8_0。
- 所有其他层量化为Q6_K。
openhands-lm-7b-v0.1-q8_0.gguf
- 完全Q8量化的模型,以提高准确性。
- 需要更多内存,但提供更高的精度。
openhands-lm-7b-v0.1-iq3_xs.gguf
- IQ3_XS量化,针对极端内存效率进行了优化。
- 最适合超低内存设备。
openhands-lm-7b-v0.1-iq3_m.gguf
- IQ3_M量化,提供中等块大小以提高准确性。
- 适用于低内存设备。
openhands-lm-7b-v0.1-q4_0.gguf
- 纯Q4_0量化,针对ARM设备进行了优化。
- 最适合低内存环境。
- 若追求更高准确性,建议使用IQ4_NL。
测试模型
如果你觉得这些模型有用,请点击“点赞”!同时,帮助我测试我的由AI驱动的网络监控助手,进行量子就绪安全检查: 免费网络监控器
测试方法:
- 点击聊天图标(任何页面的右下角)
- 选择一个AI助手类型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(开源)TestLLM
(仅支持CPU的实验性模型)
测试内容
我正在挑战小型开源模型在AI网络监控中的极限,具体包括:
- 针对实时网络服务进行函数调用
- 探索模型可以多小,同时仍然能够处理:
- 自动化Nmap扫描
- 量子就绪检查
- Metasploit集成
TestLLM – 当前的实验性模型(在6个CPU线程上运行llama.cpp)
- 零配置设置
- 加载时间约30秒(推理速度慢,但无API成本)
- 寻求帮助! 如果你对边缘设备AI感兴趣,让我们一起合作!
其他助手
-
TurboLLM – 使用gpt - 4 - mini进行:
- 实时网络诊断
- 自动化渗透测试(Nmap/Metasploit)
- 通过下载我们的免费网络监控代理获取更多令牌
-
HugLLM – 开源模型(约8B参数):
- 令牌数量是TurboLLM的2倍
- 由AI驱动的日志分析
- 在Hugging Face推理API上运行
示例AI命令测试
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
- '"Create a cmd processor to .. (what ever you want)" 注意:你需要安装免费的网络监控代理才能运行.net代码。这是一个非常灵活和强大的功能,请谨慎使用!
最后说明
我自掏腰包为服务器提供资金,用于创建模型文件、运行免费网络监控服务以及支付来自Novita和OpenAI的推理费用。所有创建模型的代码和我在免费网络监控方面所做的工作都是开源的。你可以自由使用你认为有用的内容。如果你愿意支持我的工作,请考虑请我喝杯咖啡,这将帮助我支付服务费用并提高每个人的令牌限制。
感谢你的支持!
模型介绍
这是一个较小的7B模型,按照[all - hands/openhands - lm - 32b - v0.1](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)的方法进行训练。
自主软件开智能体已经在[广泛的软件开发任务](/blog/8 - use - cases - for - generalist - software - development - agents)中发挥作用。但到目前为止,强大的编码智能体依赖于专有模型,这意味着即使你使用像[OpenHands](https://github.com/All - Hands - AI/OpenHands)这样的开源智能体,仍然需要依赖外部服务的API调用。
现在,我们很高兴推出OpenHands LM,这是一个新的开源编码模型,具有以下特点:
- 开源且可在[Hugging Face](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)上获取,你可以下载并在本地运行。
- 规模适中,为32B,可以在单块3090 GPU等硬件上本地运行。
- 在软件工程任务中表现出色,在SWE - Bench Verified上的解决率达到37.2%。
什么是OpenHands LM?
OpenHands LM基于[Qwen Coder 2.5 Instruct 32B](https://huggingface.co/Qwen/Qwen2.5 - Coder - 32B - Instruct)构建,利用其强大的编码基础能力。OpenHands LM的独特之处在于我们的特殊微调过程:
- 我们使用OpenHands本身在各种开源仓库上生成的训练数据。
- 具体来说,我们使用SWEGym中概述的基于强化学习的框架,设置训练环境,使用现有智能体生成训练数据,然后在成功解决的示例上对模型进行微调。
- 它具有128K的令牌上下文窗口,非常适合处理大型代码库和长期的软件工程任务。
性能:超越预期
我们使用最新的[迭代评估协议](https://github.com/All - Hands - AI/OpenHands/tree/main/evaluation/benchmarks/swe_bench#run - inference - rollout - on - swe - bench - instances - generate - patch - from - problem - statement)在SWE - Bench Verified基准测试上对OpenHands LM进行了评估。
结果令人印象深刻:
- 在SWE - Bench Verified上的验证解决率为37.2%。
- 性能与参数数量多20倍的模型相当,包括具有671B参数的Deepseek V3 0324(38.8%)。
以下是OpenHands LM与其他领先的开源模型的比较: 
如图所示,我们的32B参数模型实现了接近更大模型的效率。虽然最大的模型(671B参数)得分略高,但我们的32B参数模型表现出色,为无法使用更大模型的本地部署提供了可能性。
立即开始使用OpenHands LM
你可以通过以下方式立即开始使用OpenHands LM:
- 从Hugging Face下载模型 模型可在[Hugging Face](https://huggingface.co/all - hands/openhands - lm - 32b - v0.1)上获取,可直接从那里下载。
- 使用模型服务框架创建与OpenAI兼容的端点 为了获得最佳性能,建议使用[SLang](https://github.com/sgl - project/sglang)或[vLLM](https://github.com/vllm - project/vllm)在GPU上部署此模型。
- 将你的OpenHands智能体指向新模型 下载[OpenHands](https://github.com/All - Hands - AI/OpenHands),并按照[使用与OpenAI兼容的端点](https://docs.all - hands.dev/modules/usage/llms/openai - llms#using - openai - compatible - endpoints)的说明进行操作。
未来发展计划
这个初始版本只是我们旅程的开始。我们将根据社区反馈和持续的研究计划继续改进OpenHands LM。
需要注意的是,该模型仍处于研究预览阶段,(1) 可能最适合解决GitHub问题的任务,在更多样化的软件工程任务中表现可能不佳;(2) 有时可能会生成重复的步骤;(3) 对量化有些敏感,在较低的量化级别下可能无法发挥全部性能。我们的下一个版本将专注于解决这些限制。
我们还在开发更紧凑的模型版本(包括7B参数的变体),以支持计算资源有限的用户。这些较小的模型将保留OpenHands LM的核心优势,同时大幅降低硬件要求。
我们鼓励你尝试OpenHands LM,分享你的经验,并参与其发展。让我们共同为未来的软件开发创造更好的工具。
尝试OpenHands Cloud
虽然OpenHands LM是一个强大的本地运行模型,但我们还提供了一个完全托管的云解决方案,使你更轻松地将AI应用于软件开发需求。
[OpenHands Cloud](https://www.all - hands.dev/blog/introducing - the - openhands - cloud)提供:
- 与GitHub无缝集成,支持问题和拉取请求。
- 多种交互方式,包括文本、语音和移动设备。
- 并行智能体功能,可同时处理多个任务。
- 无需管理基础设施,即可享受OpenHands的所有功能。
OpenHands Cloud基于与我们的开源解决方案相同的技术构建,但为希望使用现成平台的团队和个人添加了便捷功能。[访问app.all - hands.dev](https://app.all - hands.dev)立即开始使用!
加入我们的社区
我们邀请你加入OpenHands LM的发展之旅:
- 探索我们的[GitHub仓库](https://github.com/All - Hands - AI/OpenHands)
- 在[Slack](https://join.slack.com/t/openhands - ai/shared_invite/zt - 2tom0er4l - JeNUGHt_AxpEfIBstbLPiw)上与我们交流
- 遵循我们的[文档](https://docs.all - hands.dev)开始使用
通过分享你的经验和反馈,你将帮助塑造这个开源项目的未来。让我们共同为未来的软件开发创造更好的工具。
我们期待看到你使用OpenHands LM创造出的成果!
📄 许可证
本项目采用MIT许可证。



