Lucy - 128k - GGUFオープンソースモデル - 代理型ネットワーク検索とブラウジングをサポート、モバイルデバイスでの高効率な動作

ホーム

Lucy 128k GGUF

Mungertによって開発

Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #モバイル端末検索プロキシ #軽量ブラウジング #128k長コンテキスト

ダウンロード数 263

リリース時間 : 7/21/2025

モデル概要

このモデルはプロキシ型ネットワーク検索と軽量ブラウジングに特化しており、モバイルデバイスでも効率的に動作し、検索APIとウェブブラウジングツールが統合されています。

モデル特徴

プロキシ型検索機能

MCPを通じて検索APIと統合し、強力なプロキシ型検索機能を提供します。

軽量ブラウジング

Crawl4AIなどのツールを通じて基本的なウェブブラウジング機能を実現します。

モバイルデバイス最適化

モデルは軽量設計で、CPUまたはモバイルデバイスで効率的に動作します。

最適化された推論能力

機械生成のタスクベクトルを通じて検索タスクの思考プロセスを最適化します。

モデル能力

プロキシ型ネットワーク検索

軽量ウェブブラウジング

モバイルデバイス推論

テキスト生成

使用事例

ネットワーク検索

検索APIの統合

Serperなどのツールを通じて効率的なネットワーク検索を実現します。

SimpleQAでの正解率はDeepSeek - v3よりも高いです。

ウェブブラウジング

軽量ウェブクローリング

Crawl4AIを通じて基本的なウェブコンテンツのクローリングを実現します。

🚀 Lucy-128k GGUF モデル

このモデルは、1.7B パラメータの軽量なモデルで、エージェント型のウェブ検索と軽量なブラウジングに特化しています。モバイルデバイスでも効率的に動作するように最適化されており、CPU のみの構成でも実行可能です。

🚀 クイックスタート

Lucy は、vLLM、llama.cpp、または Jan、LMStudio などのローカルアプリケーションやその他の互換性のある推論エンジンを使用してデプロイできます。モデルは、MCP を通じて検索 API やウェブブラウジングツールとの統合をサポートしています。

デプロイメント

VLLM を使用してデプロイするには、以下のコマンドを実行します。

vllm serve Menlo/Lucy-128k \
    --host 0.0.0.0 \
    --port 1234 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072

または、llama.cpp の llama-server を使用することもできます。

llama-server ... --rope-scaling yarn --rope-scale 3.2 --yarn-orig-ctx 40960

推奨サンプリングパラメータ

Temperature: 0.7
Top-p: 0.9
Top-k: 20
Min-p: 0.0

✨ 主な機能

🔍 強力なエージェント型検索：MCP 対応ツール（例：Google Search を使用する Serper）による強力な検索機能を備えています。
🌐 基本的なブラウジング機能：Crawl4AI（近日公開予定の MCP サーバー）、Serper などを通じて基本的なブラウジングが可能です。
📱 モバイル最適化：軽量なデザインで、CPU またはモバイルデバイスでも十分な速度で実行できます。
🎯 集中的な推論：機械生成のタスクベクトルにより、検索タスクの思考プロセスが最適化されています。

📚 ドキュメント

モデル生成詳細

このモデルは、llama.cpp のコミット c82d48ec で生成されました。

量子化の拡張

私は、デフォルトの IMatrix 構成よりも重要なレイヤーの精度を選択的に向上させる新しい量子化アプローチを試験しています。

私のテストでは、標準の IMatrix 量子化は低ビット深度で性能が低下し、特に Mixture of Experts (MoE) モデルで顕著です。この問題を解決するために、llama.cpp の --tensor-type オプションを使用して、重要なレイヤーを手動でより高い精度に設定しています。実装はこちらで確認できます。
👉 llama.cpp を使用したレイヤーの精度向上

これによりモデルファイルのサイズは増加しますが、特定の量子化レベルでの精度が大幅に向上します。

モデル評価

Jan-Nano と Jan-Nano-128k で使用されている同じ MCP ベンチマーク方法に従って、Lucy は 1.7B モデルであるにもかかわらず、印象的な性能を示し、SimpleQA で DeepSeek-v3 よりも高い精度を達成しています。

image/png

📄 ライセンス

このモデルは、Apache 2.0 ライセンスの下で提供されています。詳細はこちら

🤝 コミュニティとサポート

ディスカッション：HuggingFace コミュニティ

📄 引用

論文（近日公開予定）： Lucy: edgerunning agentic web search on mobile with machine generated task vectors.

📊 モデル情報

属性	详情
モデルタイプ	Lucy-128k GGUF モデル
ベースモデル	Qwen/Qwen3-1.7B
ライブラリ名	transformers
パイプラインタグ	テキスト生成

🚀 モデルの活用

もしこれらのモデルが役に立った場合は、私の AI 駆動の量子ネットワークモニターアシスタント を 量子対応のセキュリティチェック でテストしていただけると幸いです。

👉 量子ネットワークモニター

量子ネットワークモニターサービスの完全なオープンソースコードは、私の GitHub リポジトリ（NetworkMonitor という名前のリポジトリ）で入手できます。量子ネットワークモニターのソースコードまた、モデルを自分で量子化したい場合は、私が使用しているコードも GGUFModelBuilder で見つけることができます。

💬 テスト方法： AI アシスタントタイプ を選択します。

TurboLLM (GPT-4.1-mini)
HugLLM (Hugginface オープンソースモデル)
TestLLM (実験的な CPU 専用)

テスト内容

私は、AI ネットワークモニタリング用の小さなオープンソースモデルの限界 を追求しています。具体的には、

ライブネットワークサービスに対する 関数呼び出し
以下のタスクを処理しながら、モデルをどれだけ小さくできるか
- 自動化された Nmap セキュリティスキャン
- 量子対応チェック
- ネットワークモニタリングタスク

🟡 TestLLM – 現在の実験的モデル（Hugging Face Docker スペースで 2 CPU スレッドの llama.cpp）：

✅ ゼロコンフィギュレーションセットアップ
⏳ 30 秒のロード時間（推論は遅いですが API コストがかからない）。コストが低いため、トークン制限はありません。
🔧 協力を求めています！ エッジデバイス AI に興味がある方は、一緒に協力しましょう！

その他のアシスタント

🟢 TurboLLM – gpt-4.1-mini を使用しています。

非常に良好な性能を発揮しますが、残念ながら OpenAI はトークンごとに課金します。そのため、トークンの使用量に制限があります。
量子ネットワークモニターエージェントで .net コードを実行するカスタムコマンドプロセッサを作成します。
リアルタイムのネットワーク診断とモニタリング
セキュリティ監査
侵入テスト (Nmap/Metasploit)

🔵 HugLLM – 最新のオープンソースモデル：

🌐 Hugging Face 推論 API 上で実行されます。Novita でホストされている最新のモデルを使用して、非常に良好な性能を発揮します。

💡 テストできるコマンドの例

"ウェブサイトの SSL 証明書に関する情報を教えて"
"サーバーが通信に量子安全暗号化を使用しているかどうかを確認して"
"サーバーの包括的なセキュリティ監査を実行して"
`"何かしらのカスタムコマンドプロセッサを作成して" 注：量子ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

最後に

私は、これらのモデルファイルを作成するためのサーバー、量子ネットワークモニターサービスを実行するためのサーバー、および Novita と OpenAI からの推論コストをすべて自費で負担しています。モデル作成と量子ネットワークモニタープロジェクトの背後にあるすべてのコードはオープンソースです。役に立つものがあれば、自由に使用してください。

もし私の仕事を評価していただける場合は、コーヒーを買ってください ☕。あなたの支援により、サービスコストを賄うことができ、すべてのユーザーのトークン制限を引き上げることができます。

また、仕事の機会やスポンサーシップも歓迎しています。

ありがとうございます！ 😊