模型概述
模型特點
模型能力
使用案例
🚀 UI-TARS-1.5-7B GGUF模型
UI-TARS-1.5-7B GGUF模型是基於先進技術生成的多模態模型,在圖像文本轉換等任務中表現出色。它採用了創新的量化方法,能在極低比特率下保持較高的準確性,同時提供多種模型格式以適應不同的硬件和內存需求。此外,該模型還可用於網絡監控等領域,具有廣泛的應用前景。
🚀 快速開始
模型生成詳情
此模型使用 llama.cpp 在提交版本 6a2bc8bf
時生成。
超低比特量化與IQ-DynamicGate(1 - 2比特)
我們最新的量化方法為超低比特模型(1 - 2比特)引入了精度自適應量化,並在 Llama - 3 - 8B 上通過基準測試證明了其有效性。這種方法採用特定層策略,在保持極高內存效率的同時保留了準確性。
基準測試環境
所有測試均在 Llama - 3 - 8B - Instruct 上進行,使用以下條件:
- 標準困惑度評估管道
- 2048 令牌上下文窗口
- 所有量化使用相同的提示集
方法
- 動態精度分配:
- 前/後 25% 的層 → IQ4_XS(選定層)
- 中間 50% → IQ2_XXS/IQ3_S(提高效率)
- 關鍵組件保護:
- 嵌入/輸出層使用 Q5_K
- 與標準 1 - 2 比特量化相比,誤差傳播降低 38%
量化性能比較(Llama - 3 - 8B)
量化方式 | 標準困惑度 | DynamicGate困惑度 | Δ困惑度 | 標準大小 | DG大小 | Δ大小 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵說明:
- PPL = 困惑度(越低越好)
- ΔPPL = 從標準量化到DynamicGate量化的百分比變化
- 速度 = 推理時間(CPU avx2,2048 令牌上下文)
- 大小差異反映了混合量化的開銷
主要改進:
- IQ1_M 的困惑度大幅降低 43.9%(從 27.46 降至 15.41)
- IQ2_S 的困惑度降低 36.9%,同時僅增加 0.2GB 大小
- IQ1_S 儘管是 1 比特量化,但仍保持了 39.7% 的更高準確性
權衡:
- 所有變體的大小均有適度增加(0.1 - 0.3GB)
- 推理速度相近(差異 < 5%)
使用場景
- 將模型裝入GPU顯存
- 內存受限的部署
- 可以容忍 1 - 2 比特誤差的CPU和邊緣設備
- 超低比特量化研究
選擇合適的模型格式
選擇正確的模型格式取決於您的硬件能力和內存限制。
BF16(腦浮點16) - 若支持BF16加速則使用
- 一種 16 位浮點格式,專為更快的計算而設計,同時保留了良好的精度。
- 提供與 FP32 相似的動態範圍,但內存使用更低。
- 若您的硬件支持 BF16 加速(請檢查設備規格),建議使用。
- 與 FP32 相比,適用於高性能推理且內存佔用減少。
使用 BF16 的情況:
- 您的硬件具有原生 BF16 支持(例如,較新的 GPU、TPU)。
- 您希望在節省內存的同時獲得更高的精度。
- 您計劃將模型重新量化為其他格式。
避免使用 BF16 的情況:
- 您的硬件不支持 BF16(可能會回退到 FP32 並運行較慢)。
- 您需要與缺乏 BF16 優化的舊設備兼容。
F16(浮點16) - 比 BF16 更廣泛支持
- 一種 16 位浮點格式,具有高精度,但動態範圍小於 BF16。
- 適用於大多數支持 FP16 加速的設備(包括許多 GPU 和一些 CPU)。
- 數值精度略低於 BF16,但通常足以進行推理。
使用 F16 的情況:
- 您的硬件支持 FP16 但不支持 BF16。
- 您需要在速度、內存使用和準確性之間取得平衡。
- 您在GPU或其他針對 FP16 計算優化的設備上運行。
避免使用 F16 的情況:
- 您的設備缺乏原生 FP16 支持(可能會比預期運行更慢)。
- 您有內存限制。
量化模型(Q4_K、Q6_K、Q8 等) - 用於 CPU 和低顯存推理
量化可在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 最適合最小化內存使用,可能精度較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更高,但需要更多內存。
使用量化模型的情況:
- 您在CPU上進行推理,需要優化的模型。
- 您的設備顯存較低,無法加載全精度模型。
- 您希望在保持合理準確性的同時減少內存佔用。
避免使用量化模型的情況:
- 您需要最高準確性(全精度模型更適合)。
- 您的硬件有足夠的顯存用於更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極端內存效率進行了優化,非常適合低功耗設備或內存是關鍵限制因素的大規模部署。
- IQ3_XS:超低比特量化(3 比特),具有極高的內存效率。
- 使用場景:最適合超低內存設備,即使 Q4_K 也太大的情況。
- 權衡:與高比特量化相比,準確性較低。
- IQ3_S:小塊大小,實現最大內存效率。
- 使用場景:最適合低內存設備,當 IQ3_XS 過於激進時。
- IQ3_M:中等塊大小,比 IQ3_S 具有更好的準確性。
- 使用場景:適用於低內存設備,當 IQ3_S 限制過多時。
- Q4_K:4 比特量化,具有逐塊優化以提高準確性。
- 使用場景:最適合低內存設備,當 Q6_K 太大時。
- Q4_0:純 4 比特量化,針對 ARM 設備進行了優化。
- 使用場景:最適合基於 ARM 的設備或低內存環境。
模型格式選擇總結表
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳使用場景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持 BF16 的 GPU/CPU | 減少內存的高速推理 |
F16 | 高 | 高 | 支持 FP16 的設備 | BF16 不可用時的 GPU 推理 |
Q4_K | 中低 | 低 | CPU 或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中等 | 適中 | 內存更多的 CPU | 量化模型中準確性較好 |
Q8_0 | 高 | 適中 | 有足夠顯存的 CPU 或 GPU | 量化模型中最佳準確性 |
IQ3_XS | 非常低 | 非常低 | 超低內存設備 | 極端內存效率和低準確性 |
Q4_0 | 低 | 低 | ARM 或低內存設備 | llama.cpp 可針對 ARM 設備優化 |
包含文件及詳情
UI-TARS-1.5-7B-bf16.gguf
- 模型權重以 BF16 格式保存。
- 如果您想將模型重新量化為不同格式,請使用此文件。
- 若您的設備支持 BF16 加速,此文件最佳。
UI-TARS-1.5-7B-f16.gguf
- 模型權重以 F16 格式存儲。
- 若您的設備支持 FP16,尤其是當 BF16 不可用時,請使用此文件。
UI-TARS-1.5-7B-bf16-q8_0.gguf
- 輸出和嵌入層保持為 BF16。
- 所有其他層量化為 Q8_0。
- 若您的設備支持 BF16 且您想要量化版本,請使用此文件。
UI-TARS-1.5-7B-f16-q8_0.gguf
- 輸出和嵌入層保持為 F16。
- 所有其他層量化為 Q8_0。
UI-TARS-1.5-7B-q4_k.gguf
- 輸出和嵌入層量化為 Q8_0。
- 所有其他層量化為 Q4_K。
- 適用於內存有限的 CPU 推理。
UI-TARS-1.5-7B-q4_k_s.gguf
- 最小的 Q4_K 變體,以犧牲準確性為代價減少內存使用。
- 最適合極低內存設置。
UI-TARS-1.5-7B-q6_k.gguf
- 輸出和嵌入層量化為 Q8_0。
- 所有其他層量化為 Q6_K。
UI-TARS-1.5-7B-q8_0.gguf
- 完全 Q8 量化的模型,以獲得更高的準確性。
- 需要更多內存,但提供更高的精度。
UI-TARS-1.5-7B-iq3_xs.gguf
- IQ3_XS 量化,針對極端內存效率進行了優化。
- 最適合超低內存設備。
UI-TARS-1.5-7B-iq3_m.gguf
- IQ3_M 量化,提供中等塊大小以提高準確性。
- 適用於低內存設備。
UI-TARS-1.5-7B-q4_0.gguf
- 純 Q4_0 量化,針對 ARM 設備進行了優化。
- 最適合低內存環境。
- 若追求更高準確性,建議使用 IQ4_NL。
模型測試與協作
如果您覺得這些模型有用,請點擊“點贊”!同時,幫助我測試我的人工智能網絡監控助手,它具備量子就緒安全檢查功能: 免費網絡監控
測試方法
選擇一種人工智能助手類型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Huggingface開源)TestLLM
(僅適用於實驗性 CPU)
測試內容
我正在探索小型開源模型在人工智能網絡監控中的極限,具體包括:
- 針對即時網絡服務的函數調用
- 模型可以多小,同時仍能處理:
- 自動化 Nmap 掃描
- 量子就緒檢查
- 網絡監控任務
TestLLM - 當前實驗性模型(llama.cpp 在 2 個 CPU 線程上)
- 零配置設置
- 30 秒加載時間(推理較慢,但無 API 成本)
- 尋求幫助! 如果您對邊緣設備人工智能感興趣,讓我們一起合作!
其他助手
- TurboLLM - 使用 gpt - 4o - mini 進行:
- 創建自定義命令處理器,在免費網絡監控代理上運行 .net 代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試(Nmap/Metasploit)
- HugLLM - 最新開源模型:
- 在 Hugging Face 推理 API 上運行
示例測試命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,您需要安裝免費網絡監控代理才能運行 .net 代碼。這是一個非常靈活和強大的功能,請謹慎使用!
總結
我自掏腰包為創建這些模型文件的服務器、運行免費網絡監控服務以及從 Novita 和 OpenAI 進行推理提供資金。模型創建和免費網絡監控項目背後的所有代碼都是開源的。您可以自由使用任何有幫助的內容。
如果您認可我的工作,請考慮請我喝杯咖啡☕。您的支持將幫助支付服務成本,並使我能夠為大家提高令牌限制。
我也歡迎工作機會或贊助。
感謝您的支持!
✨ 主要特性
- 創新量化方法:採用超低比特量化與IQ-DynamicGate技術,在極低比特率下保持較高準確性。
- 多格式支持:提供BF16、F16、Q4_K等多種模型格式,適應不同硬件和內存需求。
- 廣泛應用場景:可用於圖像文本轉換、網絡監控等多個領域。
- 高性能表現:在多個基準測試中表現出色,優於其他同類模型。
📚 詳細文檔
UI-TARS-1.5模型介紹
我們在 博客 中分享了 UI-TARS-1.5 模型的最新進展,該模型在遊戲和 GUI 任務中表現出色。
模型概述
UI-TARS-1.5 是一個基於強大視覺語言模型構建的開源多模態代理,能夠在虛擬世界中有效執行各種任務。
它基於 我們最近的論文 中介紹的基礎架構,集成了強化學習實現的高級推理能力。這使得模型在採取行動之前能夠進行思考,顯著提高了其性能和適應性,特別是在推理時的擴展性方面。我們的新版本 1.5 在各種標準基準測試中取得了最先進的結果,展示了強大的推理能力,並相比之前的模型有了顯著改進。
性能表現
在線基準測試評估
基準測試類型 | 基準測試 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的最優模型 |
---|---|---|---|---|---|
計算機使用 | OSworld (100 步) | 42.5 | 36.4 | 28 | 38.1 (200 步) |
Windows Agent Arena (50 步) | 42.1 | - | - | 29.8 | |
瀏覽器使用 | WebVoyager | 84.8 | 87 | 84.1 | 87 |
Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
手機使用 | Android World | 64.2 | - | - | 59.5 |
定位能力評估
基準測試 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的最優模型 |
---|---|---|---|---|
ScreensSpot-V2 | 94.2 | 87.9 | 87.6 | 91.6 |
ScreenSpotPro | 61.6 | 23.4 | 27.7 | 43.6 |
Poki 遊戲
模型 | 2048 | cubinko | energy | free-the-key | Gem-11 | hex-frvr | Infinity-Loop | Maze:Path-of-Light | shapes | snake-solver | wood-blocks-3d | yarn-untangle | laser-maze-puzzle | tiles-master |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 |
Claude 3.7 | 43.05 | 0.00 | 41.60 | 0.00 | 0.00 | 30.76 | 2.31 | 82.00 | 6.26 | 42.86 | 0.00 | 13.77 | 28.00 | 52.18 |
UI-TARS-1.5 | 100.00 | 0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
Minecraft
任務類型 | 任務名稱 | VPT | DreamerV3 | 之前的最優模型 | UI-TARS-1.5 無思考 | UI-TARS-1.5 有思考 |
---|---|---|---|---|---|---|
挖掘方塊 | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 |
(obsidian) | 0.0 | 0.0 | 0.0 | 0.2 | 0.3 | |
(white_bed) | 0.0 | 0.0 | 0.1 | 0.4 | 0.6 | |
200 任務平均 | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 | |
擊殺怪物 | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 |
(zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | |
(chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | |
100 任務平均 | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 |
模型規模比較
此表比較了 UI-TARS 不同模型規模在 OSworld 基準測試中的性能。
基準測試類型 | 基準測試 | UI-TARS-72B-DPO | UI-TARS-1.5-7B | UI-TARS-1.5 |
---|---|---|---|---|
計算機使用 | OSWorld | 24.6 | 27.5 | 42.5 |
GUI 定位 | ScreenSpotPro | 38.1 | 49.6 | 61.6 |
發佈的 UI-TARS-1.5-7B 主要側重於增強一般計算機使用能力,並非專門針對遊戲場景進行優化,而 UI-TARS-1.5 在遊戲場景中仍具有顯著優勢。
未來計劃
我們正在為表現最佳的 UI-TARS-1.5 模型提供早期研究訪問權限,以促進合作研究。感興趣的研究人員可以通過 TARS 與我們聯繫。
📄 許可證
本項目採用 Apache-2.0 許可證。









