UI-TARS-1.5-7B-GGUF开源多模态模型 - 高效实现图像文本转换，低码率下高准确

首页

UI TARS 1.5 7B GGUF

由 Mungert 开发

UI-TARS-1.5-7B是基于先进技术的多模态模型，在图像文本转换等任务中表现出色，采用创新的量化方法，能在极低比特率下保持较高的准确性。

文本生成图像

Transformers

开源协议:Apache-2.0 #超低比特量化 #多模态代理 #GUI任务优化

下载量 2,526

发布时间 : 5/18/2025

模型简介

该模型是一个多模态代理，能够在虚拟世界中执行各种任务，特别擅长图像文本转换和网络监控。采用了强化学习实现的高级推理能力，显著提高了性能和适应性。

模型特点

创新量化方法

采用超低比特量化与IQ-DynamicGate技术，在极低比特率下保持较高准确性。

多格式支持

提供BF16、F16、Q4_K等多种模型格式，适应不同硬件和内存需求。

高性能表现

在多个基准测试中表现出色，优于其他同类模型。

强化学习集成

集成强化学习实现的高级推理能力，显著提高性能和适应性。

模型能力

图像文本转换

网络监控

GUI任务执行

游戏任务处理

安全审计

网络诊断

使用案例

计算机使用

OSworld任务执行

在100步内完成计算机使用任务

42.5分，优于OpenAI CUA和Claude 3.7

Windows Agent Arena

在50步内完成Windows任务

42.1分，显著优于之前最优模型

游戏

Poki游戏

多种网页游戏任务执行

在14个测试游戏中全部获得100%完成率

Minecraft任务

挖掘方块和击杀怪物任务

有思考模式下表现最佳，200任务平均0.42分

网络监控

SSL证书检查

检查网站的SSL证书信息

量子安全加密检查

验证服务器是否使用量子安全加密

🚀 UI-TARS-1.5-7B GGUF模型

UI-TARS-1.5-7B GGUF模型是基于先进技术生成的多模态模型，在图像文本转换等任务中表现出色。它采用了创新的量化方法，能在极低比特率下保持较高的准确性，同时提供多种模型格式以适应不同的硬件和内存需求。此外，该模型还可用于网络监控等领域，具有广泛的应用前景。

🚀 快速开始

模型生成详情

此模型使用 llama.cpp 在提交版本 6a2bc8bf 时生成。

超低比特量化与IQ-DynamicGate（1 - 2比特）

我们最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，并在 Llama - 3 - 8B 上通过基准测试证明了其有效性。这种方法采用特定层策略，在保持极高内存效率的同时保留了准确性。

基准测试环境

所有测试均在 Llama - 3 - 8B - Instruct 上进行，使用以下条件：

标准困惑度评估管道
2048 令牌上下文窗口
所有量化使用相同的提示集

方法

动态精度分配：
- 前/后 25% 的层 → IQ4_XS（选定层）
- 中间 50% → IQ2_XXS/IQ3_S（提高效率）
关键组件保护：
- 嵌入/输出层使用 Q5_K
- 与标准 1 - 2 比特量化相比，误差传播降低 38%

量化性能比较（Llama - 3 - 8B）

量化方式	标准困惑度	DynamicGate困惑度	Δ困惑度	标准大小	DG大小	Δ大小	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键说明：

PPL = 困惑度（越低越好）
ΔPPL = 从标准量化到DynamicGate量化的百分比变化
速度 = 推理时间（CPU avx2，2048 令牌上下文）
大小差异反映了混合量化的开销

主要改进：

IQ1_M 的困惑度大幅降低 43.9%（从 27.46 降至 15.41）
IQ2_S 的困惑度降低 36.9%，同时仅增加 0.2GB 大小
IQ1_S 尽管是 1 比特量化，但仍保持了 39.7% 的更高准确性

权衡：

所有变体的大小均有适度增加（0.1 - 0.3GB）
推理速度相近（差异 < 5%）

使用场景

将模型装入GPU显存
内存受限的部署
可以容忍 1 - 2 比特误差的CPU和边缘设备
超低比特量化研究

选择合适的模型格式

选择正确的模型格式取决于您的硬件能力和内存限制。

BF16（脑浮点16） - 若支持BF16加速则使用

一种 16 位浮点格式，专为更快的计算而设计，同时保留了良好的精度。
提供与 FP32 相似的动态范围，但内存使用更低。
若您的硬件支持 BF16 加速（请检查设备规格），建议使用。
与 FP32 相比，适用于高性能推理且内存占用减少。

使用 BF16 的情况：

您的硬件具有原生 BF16 支持（例如，较新的 GPU、TPU）。
您希望在节省内存的同时获得更高的精度。
您计划将模型重新量化为其他格式。

避免使用 BF16 的情况：

您的硬件不支持 BF16（可能会回退到 FP32 并运行较慢）。
您需要与缺乏 BF16 优化的旧设备兼容。

F16（浮点16） - 比 BF16 更广泛支持

一种 16 位浮点格式，具有高精度，但动态范围小于 BF16。
适用于大多数支持 FP16 加速的设备（包括许多 GPU 和一些 CPU）。
数值精度略低于 BF16，但通常足以进行推理。

使用 F16 的情况：

您的硬件支持 FP16 但不支持 BF16。
您需要在速度、内存使用和准确性之间取得平衡。
您在GPU或其他针对 FP16 计算优化的设备上运行。

避免使用 F16 的情况：

您的设备缺乏原生 FP16 支持（可能会比预期运行更慢）。
您有内存限制。

量化模型（Q4_K、Q6_K、Q8 等） - 用于 CPU 和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 最适合最小化内存使用，可能精度较低。
高比特模型（Q6_K、Q8_0） → 准确性更高，但需要更多内存。

使用量化模型的情况：

您在CPU上进行推理，需要优化的模型。
您的设备显存较低，无法加载全精度模型。
您希望在保持合理准确性的同时减少内存占用。

避免使用量化模型的情况：

您需要最高准确性（全精度模型更适合）。
您的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极端内存效率进行了优化，非常适合低功耗设备或内存是关键限制因素的大规模部署。

IQ3_XS：超低比特量化（3 比特），具有极高的内存效率。
- 使用场景：最适合超低内存设备，即使 Q4_K 也太大的情况。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，实现最大内存效率。
- 使用场景：最适合低内存设备，当 IQ3_XS 过于激进时。
IQ3_M：中等块大小，比 IQ3_S 具有更好的准确性。
- 使用场景：适用于低内存设备，当 IQ3_S 限制过多时。
Q4_K：4 比特量化，具有逐块优化以提高准确性。
- 使用场景：最适合低内存设备，当 Q6_K 太大时。
Q4_0：纯 4 比特量化，针对 ARM 设备进行了优化。
- 使用场景：最适合基于 ARM 的设备或低内存环境。

模型格式选择总结表

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持 BF16 的 GPU/CPU	减少内存的高速推理
F16	高	高	支持 FP16 的设备	BF16 不可用时的 GPU 推理
Q4_K	中低	低	CPU 或低显存设备	内存受限环境的最佳选择
Q6_K	中等	适中	内存更多的 CPU	量化模型中准确性较好
Q8_0	高	适中	有足够显存的 CPU 或 GPU	量化模型中最佳准确性
IQ3_XS	非常低	非常低	超低内存设备	极端内存效率和低准确性
Q4_0	低	低	ARM 或低内存设备	llama.cpp 可针对 ARM 设备优化

包含文件及详情

`UI-TARS-1.5-7B-bf16.gguf`

模型权重以 BF16 格式保存。
如果您想将模型重新量化为不同格式，请使用此文件。
若您的设备支持 BF16 加速，此文件最佳。

`UI-TARS-1.5-7B-f16.gguf`

模型权重以 F16 格式存储。
若您的设备支持 FP16，尤其是当 BF16 不可用时，请使用此文件。

`UI-TARS-1.5-7B-bf16-q8_0.gguf`

输出和嵌入层保持为 BF16。
所有其他层量化为 Q8_0。
若您的设备支持 BF16 且您想要量化版本，请使用此文件。

`UI-TARS-1.5-7B-f16-q8_0.gguf`

输出和嵌入层保持为 F16。
所有其他层量化为 Q8_0。

`UI-TARS-1.5-7B-q4_k.gguf`

输出和嵌入层量化为 Q8_0。
所有其他层量化为 Q4_K。
适用于内存有限的 CPU 推理。

`UI-TARS-1.5-7B-q4_k_s.gguf`

最小的 Q4_K 变体，以牺牲准确性为代价减少内存使用。
最适合极低内存设置。

`UI-TARS-1.5-7B-q6_k.gguf`

输出和嵌入层量化为 Q8_0。
所有其他层量化为 Q6_K。

`UI-TARS-1.5-7B-q8_0.gguf`

完全 Q8 量化的模型，以获得更高的准确性。
需要更多内存，但提供更高的精度。

`UI-TARS-1.5-7B-iq3_xs.gguf`

IQ3_XS 量化，针对极端内存效率进行了优化。
最适合超低内存设备。

`UI-TARS-1.5-7B-iq3_m.gguf`

IQ3_M 量化，提供中等块大小以提高准确性。
适用于低内存设备。

`UI-TARS-1.5-7B-q4_0.gguf`

纯 Q4_0 量化，针对 ARM 设备进行了优化。
最适合低内存环境。
若追求更高准确性，建议使用 IQ4_NL。

模型测试与协作

如果您觉得这些模型有用，请点击“点赞”！同时，帮助我测试我的人工智能网络监控助手，它具备量子就绪安全检查功能：免费网络监控

测试方法

选择一种人工智能助手类型：

TurboLLM (GPT - 4o - mini)
HugLLM (Huggingface开源)
TestLLM (仅适用于实验性 CPU)

测试内容

我正在探索小型开源模型在人工智能网络监控中的极限，具体包括：

针对实时网络服务的函数调用
模型可以多小，同时仍能处理：
- 自动化 Nmap 扫描
- 量子就绪检查
- 网络监控任务

TestLLM - 当前实验性模型（llama.cpp 在 2 个 CPU 线程上）

零配置设置
30 秒加载时间（推理较慢，但无 API 成本）
寻求帮助！ 如果您对边缘设备人工智能感兴趣，让我们一起合作！

其他助手

TurboLLM - 使用 gpt - 4o - mini 进行：
- 创建自定义命令处理器，在免费网络监控代理上运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试（Nmap/Metasploit）
HugLLM - 最新开源模型：
- 在 Hugging Face 推理 API 上运行

示例测试命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注意，您需要安装免费网络监控代理才能运行 .net 代码。这是一个非常灵活和强大的功能，请谨慎使用！

总结

我自掏腰包为创建这些模型文件的服务器、运行免费网络监控服务以及从 Novita 和 OpenAI 进行推理提供资金。模型创建和免费网络监控项目背后的所有代码都是开源的。您可以自由使用任何有帮助的内容。

如果您认可我的工作，请考虑请我喝杯咖啡☕。您的支持将帮助支付服务成本，并使我能够为大家提高令牌限制。

我也欢迎工作机会或赞助。

感谢您的支持！

✨ 主要特性

创新量化方法：采用超低比特量化与IQ-DynamicGate技术，在极低比特率下保持较高准确性。
多格式支持：提供BF16、F16、Q4_K等多种模型格式，适应不同硬件和内存需求。
广泛应用场景：可用于图像文本转换、网络监控等多个领域。
高性能表现：在多个基准测试中表现出色，优于其他同类模型。

📚 详细文档

UI-TARS-1.5模型介绍

我们在博客中分享了 UI-TARS-1.5 模型的最新进展，该模型在游戏和 GUI 任务中表现出色。

模型概述

UI-TARS-1.5 是一个基于强大视觉语言模型构建的开源多模态代理，能够在虚拟世界中有效执行各种任务。

它基于我们最近的论文中介绍的基础架构，集成了强化学习实现的高级推理能力。这使得模型在采取行动之前能够进行思考，显著提高了其性能和适应性，特别是在推理时的扩展性方面。我们的新版本 1.5 在各种标准基准测试中取得了最先进的结果，展示了强大的推理能力，并相比之前的模型有了显著改进。

性能表现

在线基准测试评估

基准测试类型	基准测试	UI-TARS-1.5	OpenAI CUA	Claude 3.7	之前的最优模型
计算机使用	OSworld (100 步)	42.5	36.4	28	38.1 (200 步)
	Windows Agent Arena (50 步)	42.1	-	-	29.8
浏览器使用	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
手机使用	Android World	64.2	-	-	59.5

定位能力评估

基准测试	UI-TARS-1.5	OpenAI CUA	Claude 3.7	之前的最优模型
ScreensSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Poki 游戏

模型	2048	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
Claude 3.7	43.05	41.60	0.00	0.00	30.76	2.31	82.00	6.26	42.86	0.00	13.77	28.00	52.18
UI-TARS-1.5	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00

Minecraft

任务类型	任务名称	VPT	DreamerV3	之前的最优模型	UI-TARS-1.5 无思考	UI-TARS-1.5 有思考
挖掘方块	(oak_log)	0.8	1.0	1.0	1.0	1.0
	(obsidian)	0.0	0.0	0.0	0.2	0.3
	(white_bed)	0.0	0.0	0.1	0.4	0.6
	200 任务平均	0.06	0.03	0.32	0.35	0.42
击杀怪物	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100 任务平均	0.04	0.03	0.18	0.25	0.31