🚀 Lucy-128k GGUF模型
Lucy-128k GGUF模型是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行,且在相关评估中表现出色。
🚀 快速开始
Lucy可以通过多种方法进行部署,包括使用vLLM、llama.cpp,或者通过像Jan、LMStudio等本地应用程序以及其他兼容的推理引擎。该模型支持通过MCP与搜索API和网页浏览工具集成。
部署
使用VLLM进行部署:
vllm serve Menlo/Lucy-128k \
--host 0.0.0.0 \
--port 1234 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072
或者使用llama.cpp
中的llama-server
:
llama-server ... --rope-scaling yarn --rope-scale 3.2 --yarn-orig-ctx 40960
推荐的采样参数
Temperature: 0.7
Top-p: 0.9
Top-k: 20
Min-p: 0.0
✨ 主要特性
- 强大的代理式搜索:由支持MCP的工具(如带有谷歌搜索的Serper)提供支持。
- 基本的浏览能力:通过Crawl4AI(即将发布的MCP服务器)、Serper等实现。
- 针对移动设备进行优化:足够轻量级,可以在CPU或移动设备上以相当的速度运行。
- 专注的推理能力:机器生成的任务向量优化了搜索任务的思考过程。
📦 安装指南
文档未提供具体安装步骤,可参考上述快速开始中的部署方法。
💻 使用示例
文档未提供具体代码示例。
📚 详细文档
模型生成细节
该模型使用 llama.cpp 在提交版本 c82d48ec
时生成。
超越IMatrix的量化
我一直在试验一种新的量化方法,该方法有选择地提高关键层的精度,超越了默认IMatrix配置所提供的精度。
在我的测试中,标准的IMatrix量化在较低的比特深度下表现不佳,特别是对于专家混合(MoE)模型。为了解决这个问题,我使用llama.cpp
中的--tensor-type
选项手动将重要层的精度提高。你可以在以下链接查看实现:
👉 使用llama.cpp进行层提升
虽然这确实会增加模型文件的大小,但它显著提高了给定量化级别的精度。
评估
遵循与 Jan-Nano 和 Jan-Nano-128k 相同的MCP基准测试方法,尽管Lucy只是一个1.7B的模型,但它表现出了令人印象深刻的性能,在 SimpleQA 上的准确率高于DeepSeek-v3。

社区与支持
引用
论文(即将发布):Lucy: edgerunning agentic web search on mobile with machine generated task vectors.
关于模型测试与支持
如果你觉得这些模型有用,可以帮助我测试我的 人工智能驱动的量子网络监控助手 进行 量子就绪安全检查:
👉 量子网络监控器
量子网络监控服务的完整开源代码可在我的GitHub仓库(名称中包含NetworkMonitor的仓库)中找到:量子网络监控器源代码。如果你想自己进行模型量化,也可以找到我使用的代码 GGUFModelBuilder。
如何测试
选择一种 人工智能助手类型:
TurboLLM
(GPT-4.1-mini)
HugLLM
(Hugginface开源模型)
TestLLM
(仅支持CPU的实验性模型)
测试内容
我正在挑战 小型开源模型在人工智能网络监控方面的极限,具体包括:
- 针对实时网络服务进行 函数调用
- 研究模型可以小到什么程度,同时仍能处理:
- 自动 Nmap安全扫描
- 量子就绪检查
- 网络监控任务
当前实验模型 - TestLLM
- ✅ 零配置设置
- ⏳ 30秒加载时间(推理速度慢,但 无API成本)。由于成本较低,没有令牌限制。
- 🔧 寻求帮助! 如果你对 边缘设备人工智能 感兴趣,让我们一起合作!
其他助手
🟢 TurboLLM – 使用 gpt-4.1-mini:
- 它的表现非常好,但不幸的是OpenAI按令牌收费。因此,令牌使用受到限制。
- 创建自定义命令处理器,在量子网络监控代理上运行.net代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
🔵 HugLLM – 最新的开源模型:
- 🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型表现相当不错。
示例命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)"
注意,你需要安装一个 量子网络监控代理 才能运行.net代码。这是一个非常灵活和强大的功能,请谨慎使用!
最后说明
我自掏腰包资助用于创建这些模型文件的服务器、运行量子网络监控服务以及支付Novita和OpenAI的推理费用。模型创建和量子网络监控项目背后的所有代码都是 开源的。你可以随意使用你认为有用的任何内容。
如果你欣赏我的工作,请考虑 请我喝杯咖啡 ☕。你的支持有助于支付服务成本,并让我能够为大家提高令牌限制。
我也欢迎工作机会或赞助。
感谢!😊
🔧 技术细节
文档未提供具体技术细节。
📄 许可证
该模型使用的许可证为Apache 2.0许可证。

信息表格
属性 |
详情 |
模型类型 |
Lucy-128k GGUF模型 |
基础模型 |
Qwen/Qwen3-1.7B |
库名称 |
transformers |
任务类型 |
文本生成 |
许可证 |
Apache 2.0 |