Lucy-128k-GGUF开源模型 - 支持代理式网络搜索与浏览，移动设备高效运行

首页

Lucy 128k GGUF

由 Mungert 开发

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #移动端搜索代理 #轻量级浏览 #128k长上下文

下载量 263

发布时间 : 7/21/2025

模型简介

该模型专注于代理式网络搜索和轻量级浏览，支持在移动设备上高效运行，并集成了搜索API和网页浏览工具。

模型特点

代理式搜索能力

支持通过MCP与搜索API集成，提供强大的代理式搜索功能。

轻量级浏览

通过Crawl4AI等工具实现基本的网页浏览能力。

移动设备优化

模型轻量级设计，适合在CPU或移动设备上高效运行。

优化的推理能力

通过机器生成的任务向量优化搜索任务的思考过程。

模型能力

代理式网络搜索

轻量级网页浏览

移动设备推理

文本生成

使用案例

网络搜索

集成搜索API

通过Serper等工具实现高效的网络搜索。

在SimpleQA上的准确率高于DeepSeek-v3。

网页浏览

轻量级网页抓取

通过Crawl4AI实现基本的网页内容抓取。

🚀 Lucy-128k GGUF模型

Lucy-128k GGUF模型是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行，且在相关评估中表现出色。

🚀 快速开始

Lucy可以通过多种方法进行部署，包括使用vLLM、llama.cpp，或者通过像Jan、LMStudio等本地应用程序以及其他兼容的推理引擎。该模型支持通过MCP与搜索API和网页浏览工具集成。

部署

使用VLLM进行部署：

vllm serve Menlo/Lucy-128k \
    --host 0.0.0.0 \
    --port 1234 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072

或者使用llama.cpp中的llama-server：

llama-server ... --rope-scaling yarn --rope-scale 3.2 --yarn-orig-ctx 40960

✨ 主要特性

强大的代理式搜索：由支持MCP的工具（如带有谷歌搜索的Serper）提供支持。
基本的浏览能力：通过Crawl4AI（即将发布的MCP服务器）、Serper等实现。
针对移动设备进行优化：足够轻量级，可以在CPU或移动设备上以相当的速度运行。
专注的推理能力：机器生成的任务向量优化了搜索任务的思考过程。

📦 安装指南

文档未提供具体安装步骤，可参考上述快速开始中的部署方法。

💻 使用示例

文档未提供具体代码示例。

📚 详细文档

模型生成细节

该模型使用 llama.cpp 在提交版本 c82d48ec 时生成。

超越IMatrix的量化

我一直在试验一种新的量化方法，该方法有选择地提高关键层的精度，超越了默认IMatrix配置所提供的精度。

在我的测试中，标准的IMatrix量化在较低的比特深度下表现不佳，特别是对于专家混合（MoE）模型。为了解决这个问题，我使用llama.cpp中的--tensor-type选项手动将重要层的精度提高。你可以在以下链接查看实现： 👉 使用llama.cpp进行层提升

虽然这确实会增加模型文件的大小，但它显著提高了给定量化级别的精度。

评估

遵循与 Jan-Nano 和 Jan-Nano-128k 相同的MCP基准测试方法，尽管Lucy只是一个1.7B的模型，但它表现出了令人印象深刻的性能，在 SimpleQA 上的准确率高于DeepSeek-v3。

评估结果

社区与支持

讨论：HuggingFace社区

引用

论文（即将发布）：Lucy: edgerunning agentic web search on mobile with machine generated task vectors.

关于模型测试与支持

如果你觉得这些模型有用，可以帮助我测试我的 人工智能驱动的量子网络监控助手 进行 量子就绪安全检查： 👉 量子网络监控器

量子网络监控服务的完整开源代码可在我的GitHub仓库（名称中包含NetworkMonitor的仓库）中找到：量子网络监控器源代码。如果你想自己进行模型量化，也可以找到我使用的代码 GGUFModelBuilder。

如何测试

选择一种 人工智能助手类型：

TurboLLM (GPT-4.1-mini)
HugLLM (Hugginface开源模型)
TestLLM (仅支持CPU的实验性模型)

测试内容

我正在挑战 小型开源模型在人工智能网络监控方面的极限，具体包括：

针对实时网络服务进行 函数调用
研究模型可以小到什么程度，同时仍能处理：
- 自动 Nmap安全扫描
- 量子就绪检查
- 网络监控任务

当前实验模型 - TestLLM

✅ 零配置设置
⏳ 30秒加载时间（推理速度慢，但 无API成本）。由于成本较低，没有令牌限制。
🔧 寻求帮助！ 如果你对 边缘设备人工智能 感兴趣，让我们一起合作！

其他助手

🟢 TurboLLM – 使用 gpt-4.1-mini：

它的表现非常好，但不幸的是OpenAI按令牌收费。因此，令牌使用受到限制。
创建自定义命令处理器，在量子网络监控代理上运行.net代码
实时网络诊断和监控
安全审计
渗透测试 (Nmap/Metasploit)

🔵 HugLLM – 最新的开源模型：

🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型表现相当不错。

示例命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意，你需要安装一个量子网络监控代理才能运行.net代码。这是一个非常灵活和强大的功能，请谨慎使用！