UI-TARS-1.5-7B-GGUF開源多模態模型 - 高效實現圖像文本轉換，低碼率下高準確

首頁

UI TARS 1.5 7B GGUF

由Mungert開發

UI-TARS-1.5-7B是基於先進技術的多模態模型，在圖像文本轉換等任務中表現出色，採用創新的量化方法，能在極低比特率下保持較高的準確性。

文本生成圖像

Transformers

開源協議:Apache-2.0 #超低比特量化 #多模態代理 #GUI任務優化

下載量 2,526

發布時間 : 5/18/2025

模型概述

該模型是一個多模態代理，能夠在虛擬世界中執行各種任務，特別擅長圖像文本轉換和網絡監控。採用了強化學習實現的高級推理能力，顯著提高了性能和適應性。

模型特點

創新量化方法

採用超低比特量化與IQ-DynamicGate技術，在極低比特率下保持較高準確性。

多格式支持

提供BF16、F16、Q4_K等多種模型格式，適應不同硬件和內存需求。

高性能表現

在多個基準測試中表現出色，優於其他同類模型。

強化學習集成

集成強化學習實現的高級推理能力，顯著提高性能和適應性。

模型能力

圖像文本轉換

網絡監控

GUI任務執行

遊戲任務處理

安全審計

網絡診斷

使用案例

計算機使用

OSworld任務執行

在100步內完成計算機使用任務

42.5分，優於OpenAI CUA和Claude 3.7

Windows Agent Arena

在50步內完成Windows任務

42.1分，顯著優於之前最優模型

遊戲

Poki遊戲

多種網頁遊戲任務執行

在14個測試遊戲中全部獲得100%完成率

Minecraft任務

挖掘方塊和擊殺怪物任務

有思考模式下表現最佳，200任務平均0.42分

網絡監控

SSL證書檢查

檢查網站的SSL證書信息

量子安全加密檢查

驗證服務器是否使用量子安全加密

🚀 UI-TARS-1.5-7B GGUF模型

UI-TARS-1.5-7B GGUF模型是基於先進技術生成的多模態模型，在圖像文本轉換等任務中表現出色。它採用了創新的量化方法，能在極低比特率下保持較高的準確性，同時提供多種模型格式以適應不同的硬件和內存需求。此外，該模型還可用於網絡監控等領域，具有廣泛的應用前景。

🚀 快速開始

模型生成詳情

此模型使用 llama.cpp 在提交版本 6a2bc8bf 時生成。

超低比特量化與IQ-DynamicGate（1 - 2比特）

我們最新的量化方法為超低比特模型（1 - 2比特）引入了精度自適應量化，並在 Llama - 3 - 8B 上通過基準測試證明了其有效性。這種方法採用特定層策略，在保持極高內存效率的同時保留了準確性。

基準測試環境

所有測試均在 Llama - 3 - 8B - Instruct 上進行，使用以下條件：

標準困惑度評估管道
2048 令牌上下文窗口
所有量化使用相同的提示集

方法

動態精度分配：
- 前/後 25% 的層 → IQ4_XS（選定層）
- 中間 50% → IQ2_XXS/IQ3_S（提高效率）
關鍵組件保護：
- 嵌入/輸出層使用 Q5_K
- 與標準 1 - 2 比特量化相比，誤差傳播降低 38%

量化性能比較（Llama - 3 - 8B）

量化方式	標準困惑度	DynamicGate困惑度	Δ困惑度	標準大小	DG大小	Δ大小	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵說明：

PPL = 困惑度（越低越好）
ΔPPL = 從標準量化到DynamicGate量化的百分比變化
速度 = 推理時間（CPU avx2，2048 令牌上下文）
大小差異反映了混合量化的開銷

主要改進：

IQ1_M 的困惑度大幅降低 43.9%（從 27.46 降至 15.41）
IQ2_S 的困惑度降低 36.9%，同時僅增加 0.2GB 大小
IQ1_S 儘管是 1 比特量化，但仍保持了 39.7% 的更高準確性

權衡：

所有變體的大小均有適度增加（0.1 - 0.3GB）
推理速度相近（差異 < 5%）

使用場景

將模型裝入GPU顯存
內存受限的部署
可以容忍 1 - 2 比特誤差的CPU和邊緣設備
超低比特量化研究

選擇合適的模型格式

選擇正確的模型格式取決於您的硬件能力和內存限制。

BF16（腦浮點16） - 若支持BF16加速則使用

一種 16 位浮點格式，專為更快的計算而設計，同時保留了良好的精度。
提供與 FP32 相似的動態範圍，但內存使用更低。
若您的硬件支持 BF16 加速（請檢查設備規格），建議使用。
與 FP32 相比，適用於高性能推理且內存佔用減少。

使用 BF16 的情況：

您的硬件具有原生 BF16 支持（例如，較新的 GPU、TPU）。
您希望在節省內存的同時獲得更高的精度。
您計劃將模型重新量化為其他格式。

避免使用 BF16 的情況：

您的硬件不支持 BF16（可能會回退到 FP32 並運行較慢）。
您需要與缺乏 BF16 優化的舊設備兼容。

F16（浮點16） - 比 BF16 更廣泛支持

一種 16 位浮點格式，具有高精度，但動態範圍小於 BF16。
適用於大多數支持 FP16 加速的設備（包括許多 GPU 和一些 CPU）。
數值精度略低於 BF16，但通常足以進行推理。

使用 F16 的情況：

您的硬件支持 FP16 但不支持 BF16。
您需要在速度、內存使用和準確性之間取得平衡。
您在GPU或其他針對 FP16 計算優化的設備上運行。

避免使用 F16 的情況：

您的設備缺乏原生 FP16 支持（可能會比預期運行更慢）。
您有內存限制。

量化模型（Q4_K、Q6_K、Q8 等） - 用於 CPU 和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 最適合最小化內存使用，可能精度較低。
高比特模型（Q6_K、Q8_0） → 準確性更高，但需要更多內存。

使用量化模型的情況：

您在CPU上進行推理，需要優化的模型。
您的設備顯存較低，無法加載全精度模型。
您希望在保持合理準確性的同時減少內存佔用。

避免使用量化模型的情況：

您需要最高準確性（全精度模型更適合）。
您的硬件有足夠的顯存用於更高精度的格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極端內存效率進行了優化，非常適合低功耗設備或內存是關鍵限制因素的大規模部署。

IQ3_XS：超低比特量化（3 比特），具有極高的內存效率。
- 使用場景：最適合超低內存設備，即使 Q4_K 也太大的情況。
- 權衡：與高比特量化相比，準確性較低。
IQ3_S：小塊大小，實現最大內存效率。
- 使用場景：最適合低內存設備，當 IQ3_XS 過於激進時。
IQ3_M：中等塊大小，比 IQ3_S 具有更好的準確性。
- 使用場景：適用於低內存設備，當 IQ3_S 限制過多時。
Q4_K：4 比特量化，具有逐塊優化以提高準確性。
- 使用場景：最適合低內存設備，當 Q6_K 太大時。
Q4_0：純 4 比特量化，針對 ARM 設備進行了優化。
- 使用場景：最適合基於 ARM 的設備或低內存環境。

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳使用場景
BF16	最高	高	支持 BF16 的 GPU/CPU	減少內存的高速推理
F16	高	高	支持 FP16 的設備	BF16 不可用時的 GPU 推理
Q4_K	中低	低	CPU 或低顯存設備	內存受限環境的最佳選擇
Q6_K	中等	適中	內存更多的 CPU	量化模型中準確性較好
Q8_0	高	適中	有足夠顯存的 CPU 或 GPU	量化模型中最佳準確性
IQ3_XS	非常低	非常低	超低內存設備	極端內存效率和低準確性
Q4_0	低	低	ARM 或低內存設備	llama.cpp 可針對 ARM 設備優化

包含文件及詳情

`UI-TARS-1.5-7B-bf16.gguf`

模型權重以 BF16 格式保存。
如果您想將模型重新量化為不同格式，請使用此文件。
若您的設備支持 BF16 加速，此文件最佳。

`UI-TARS-1.5-7B-f16.gguf`

模型權重以 F16 格式存儲。
若您的設備支持 FP16，尤其是當 BF16 不可用時，請使用此文件。

`UI-TARS-1.5-7B-bf16-q8_0.gguf`

輸出和嵌入層保持為 BF16。
所有其他層量化為 Q8_0。
若您的設備支持 BF16 且您想要量化版本，請使用此文件。

`UI-TARS-1.5-7B-f16-q8_0.gguf`

輸出和嵌入層保持為 F16。
所有其他層量化為 Q8_0。

`UI-TARS-1.5-7B-q4_k.gguf`

輸出和嵌入層量化為 Q8_0。
所有其他層量化為 Q4_K。
適用於內存有限的 CPU 推理。

`UI-TARS-1.5-7B-q4_k_s.gguf`

最小的 Q4_K 變體，以犧牲準確性為代價減少內存使用。
最適合極低內存設置。

`UI-TARS-1.5-7B-q6_k.gguf`

輸出和嵌入層量化為 Q8_0。
所有其他層量化為 Q6_K。

`UI-TARS-1.5-7B-q8_0.gguf`

完全 Q8 量化的模型，以獲得更高的準確性。
需要更多內存，但提供更高的精度。

`UI-TARS-1.5-7B-iq3_xs.gguf`

IQ3_XS 量化，針對極端內存效率進行了優化。
最適合超低內存設備。

`UI-TARS-1.5-7B-iq3_m.gguf`

IQ3_M 量化，提供中等塊大小以提高準確性。
適用於低內存設備。

`UI-TARS-1.5-7B-q4_0.gguf`

純 Q4_0 量化，針對 ARM 設備進行了優化。
最適合低內存環境。
若追求更高準確性，建議使用 IQ4_NL。

模型測試與協作

如果您覺得這些模型有用，請點擊“點贊”！同時，幫助我測試我的人工智能網絡監控助手，它具備量子就緒安全檢查功能：免費網絡監控

測試方法

選擇一種人工智能助手類型：

TurboLLM (GPT - 4o - mini)
HugLLM (Huggingface開源)
TestLLM (僅適用於實驗性 CPU)

測試內容

我正在探索小型開源模型在人工智能網絡監控中的極限，具體包括：

針對即時網絡服務的函數調用
模型可以多小，同時仍能處理：
- 自動化 Nmap 掃描
- 量子就緒檢查
- 網絡監控任務

TestLLM - 當前實驗性模型（llama.cpp 在 2 個 CPU 線程上）

零配置設置
30 秒加載時間（推理較慢，但無 API 成本）
尋求幫助！ 如果您對邊緣設備人工智能感興趣，讓我們一起合作！

其他助手

TurboLLM - 使用 gpt - 4o - mini 進行：
- 創建自定義命令處理器，在免費網絡監控代理上運行 .net 代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試（Nmap/Metasploit）
HugLLM - 最新開源模型：
- 在 Hugging Face 推理 API 上運行

示例測試命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注意，您需要安裝免費網絡監控代理才能運行 .net 代碼。這是一個非常靈活和強大的功能，請謹慎使用！

總結

我自掏腰包為創建這些模型文件的服務器、運行免費網絡監控服務以及從 Novita 和 OpenAI 進行推理提供資金。模型創建和免費網絡監控項目背後的所有代碼都是開源的。您可以自由使用任何有幫助的內容。

如果您認可我的工作，請考慮請我喝杯咖啡☕。您的支持將幫助支付服務成本，並使我能夠為大家提高令牌限制。

我也歡迎工作機會或贊助。

感謝您的支持！

✨ 主要特性

創新量化方法：採用超低比特量化與IQ-DynamicGate技術，在極低比特率下保持較高準確性。
多格式支持：提供BF16、F16、Q4_K等多種模型格式，適應不同硬件和內存需求。
廣泛應用場景：可用於圖像文本轉換、網絡監控等多個領域。
高性能表現：在多個基準測試中表現出色，優於其他同類模型。

📚 詳細文檔

UI-TARS-1.5模型介紹

我們在博客中分享了 UI-TARS-1.5 模型的最新進展，該模型在遊戲和 GUI 任務中表現出色。

模型概述

UI-TARS-1.5 是一個基於強大視覺語言模型構建的開源多模態代理，能夠在虛擬世界中有效執行各種任務。

它基於我們最近的論文中介紹的基礎架構，集成了強化學習實現的高級推理能力。這使得模型在採取行動之前能夠進行思考，顯著提高了其性能和適應性，特別是在推理時的擴展性方面。我們的新版本 1.5 在各種標準基準測試中取得了最先進的結果，展示了強大的推理能力，並相比之前的模型有了顯著改進。

性能表現

在線基準測試評估

基準測試類型	基準測試	UI-TARS-1.5	OpenAI CUA	Claude 3.7	之前的最優模型
計算機使用	OSworld (100 步)	42.5	36.4	28	38.1 (200 步)
	Windows Agent Arena (50 步)	42.1	-	-	29.8
瀏覽器使用	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
手機使用	Android World	64.2	-	-	59.5

定位能力評估

基準測試	UI-TARS-1.5	OpenAI CUA	Claude 3.7	之前的最優模型
ScreensSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Poki 遊戲

模型	2048	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
Claude 3.7	43.05	41.60	0.00	0.00	30.76	2.31	82.00	6.26	42.86	0.00	13.77	28.00	52.18
UI-TARS-1.5	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00

Minecraft

任務類型	任務名稱	VPT	DreamerV3	之前的最優模型	UI-TARS-1.5 無思考	UI-TARS-1.5 有思考
挖掘方塊	(oak_log)	0.8	1.0	1.0	1.0	1.0
	(obsidian)	0.0	0.0	0.0	0.2	0.3
	(white_bed)	0.0	0.0	0.1	0.4	0.6
	200 任務平均	0.06	0.03	0.32	0.35	0.42
擊殺怪物	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100 任務平均	0.04	0.03	0.18	0.25	0.31