Lucy-128k-GGUF開源模型 - 支持代理式網絡搜索與瀏覽，移動設備高效運行

首頁

Lucy 128k GGUF

由Mungert開發

Lucy-128k是基於Qwen3-1.7B開發的專注於代理式網絡搜索和輕量級瀏覽的模型，在移動設備上也能高效運行。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #移動端搜索代理 #輕量級瀏覽 #128k長上下文

下載量 263

發布時間 : 7/21/2025

模型概述

該模型專注於代理式網絡搜索和輕量級瀏覽，支持在移動設備上高效運行，並集成了搜索API和網頁瀏覽工具。

模型特點

代理式搜索能力

支持通過MCP與搜索API集成，提供強大的代理式搜索功能。

輕量級瀏覽

通過Crawl4AI等工具實現基本的網頁瀏覽能力。

移動設備優化

模型輕量級設計，適合在CPU或移動設備上高效運行。

優化的推理能力

通過機器生成的任務向量優化搜索任務的思考過程。

模型能力

代理式網絡搜索

輕量級網頁瀏覽

移動設備推理

文本生成

使用案例

網絡搜索

集成搜索API

通過Serper等工具實現高效的網絡搜索。

在SimpleQA上的準確率高於DeepSeek-v3。

網頁瀏覽

輕量級網頁抓取

通過Crawl4AI實現基本的網頁內容抓取。

🚀 Lucy-128k GGUF模型

Lucy-128k GGUF模型是基於Qwen3-1.7B開發的專注於代理式網絡搜索和輕量級瀏覽的模型，在移動設備上也能高效運行，且在相關評估中表現出色。

🚀 快速開始

Lucy可以通過多種方法進行部署，包括使用vLLM、llama.cpp，或者通過像Jan、LMStudio等本地應用程序以及其他兼容的推理引擎。該模型支持通過MCP與搜索API和網頁瀏覽工具集成。

部署

使用VLLM進行部署：

vllm serve Menlo/Lucy-128k \
    --host 0.0.0.0 \
    --port 1234 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072

或者使用llama.cpp中的llama-server：

llama-server ... --rope-scaling yarn --rope-scale 3.2 --yarn-orig-ctx 40960

✨ 主要特性

強大的代理式搜索：由支持MCP的工具（如帶有谷歌搜索的Serper）提供支持。
基本的瀏覽能力：通過Crawl4AI（即將發佈的MCP服務器）、Serper等實現。
針對移動設備進行優化：足夠輕量級，可以在CPU或移動設備上以相當的速度運行。
專注的推理能力：機器生成的任務向量優化了搜索任務的思考過程。

📦 安裝指南

文檔未提供具體安裝步驟，可參考上述快速開始中的部署方法。

💻 使用示例

文檔未提供具體代碼示例。

📚 詳細文檔

模型生成細節

該模型使用 llama.cpp 在提交版本 c82d48ec 時生成。

超越IMatrix的量化

我一直在試驗一種新的量化方法，該方法有選擇地提高關鍵層的精度，超越了默認IMatrix配置所提供的精度。

在我的測試中，標準的IMatrix量化在較低的比特深度下表現不佳，特別是對於專家混合（MoE）模型。為了解決這個問題，我使用llama.cpp中的--tensor-type選項手動將重要層的精度提高。你可以在以下鏈接查看實現： 👉 使用llama.cpp進行層提升

雖然這確實會增加模型文件的大小，但它顯著提高了給定量化級別的精度。

評估

遵循與 Jan-Nano 和 Jan-Nano-128k 相同的MCP基準測試方法，儘管Lucy只是一個1.7B的模型，但它表現出了令人印象深刻的性能，在 SimpleQA 上的準確率高於DeepSeek-v3。

評估結果

社區與支持

討論：HuggingFace社區

引用

論文（即將發佈）：Lucy: edgerunning agentic web search on mobile with machine generated task vectors.

關於模型測試與支持

如果你覺得這些模型有用，可以幫助我測試我的 人工智能驅動的量子網絡監控助手 進行 量子就緒安全檢查： 👉 量子網絡監控器

量子網絡監控服務的完整開源代碼可在我的GitHub倉庫（名稱中包含NetworkMonitor的倉庫）中找到：量子網絡監控器源代碼。如果你想自己進行模型量化，也可以找到我使用的代碼 GGUFModelBuilder。

如何測試

選擇一種 人工智能助手類型：

TurboLLM (GPT-4.1-mini)
HugLLM (Hugginface開源模型)
TestLLM (僅支持CPU的實驗性模型)

測試內容

我正在挑戰 小型開源模型在人工智能網絡監控方面的極限，具體包括：

針對即時網絡服務進行 函數調用
研究模型可以小到什麼程度，同時仍能處理：
- 自動 Nmap安全掃描
- 量子就緒檢查
- 網絡監控任務

當前實驗模型 - TestLLM

✅ 零配置設置
⏳ 30秒加載時間（推理速度慢，但 無API成本）。由於成本較低，沒有令牌限制。
🔧 尋求幫助！ 如果你對 邊緣設備人工智能 感興趣，讓我們一起合作！

其他助手

🟢 TurboLLM – 使用 gpt-4.1-mini：

它的表現非常好，但不幸的是OpenAI按令牌收費。因此，令牌使用受到限制。
創建自定義命令處理器，在量子網絡監控代理上運行.net代碼
即時網絡診斷和監控
安全審計
滲透測試 (Nmap/Metasploit)

🔵 HugLLM – 最新的開源模型：

🌐 在Hugging Face推理API上運行。使用Novita託管的最新模型表現相當不錯。

示例命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意，你需要安裝一個量子網絡監控代理才能運行.net代碼。這是一個非常靈活和強大的功能，請謹慎使用！