模型简介
模型特点
模型能力
使用案例
🚀 UI-TARS-1.5-7B GGUF模型
UI-TARS-1.5-7B GGUF模型是基于先进技术生成的多模态模型,在图像文本转换等任务中表现出色。它采用了创新的量化方法,能在极低比特率下保持较高的准确性,同时提供多种模型格式以适应不同的硬件和内存需求。此外,该模型还可用于网络监控等领域,具有广泛的应用前景。
🚀 快速开始
模型生成详情
此模型使用 llama.cpp 在提交版本 6a2bc8bf
时生成。
超低比特量化与IQ-DynamicGate(1 - 2比特)
我们最新的量化方法为超低比特模型(1 - 2比特)引入了精度自适应量化,并在 Llama - 3 - 8B 上通过基准测试证明了其有效性。这种方法采用特定层策略,在保持极高内存效率的同时保留了准确性。
基准测试环境
所有测试均在 Llama - 3 - 8B - Instruct 上进行,使用以下条件:
- 标准困惑度评估管道
- 2048 令牌上下文窗口
- 所有量化使用相同的提示集
方法
- 动态精度分配:
- 前/后 25% 的层 → IQ4_XS(选定层)
- 中间 50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入/输出层使用 Q5_K
- 与标准 1 - 2 比特量化相比,误差传播降低 38%
量化性能比较(Llama - 3 - 8B)
量化方式 | 标准困惑度 | DynamicGate困惑度 | Δ困惑度 | 标准大小 | DG大小 | Δ大小 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键说明:
- PPL = 困惑度(越低越好)
- ΔPPL = 从标准量化到DynamicGate量化的百分比变化
- 速度 = 推理时间(CPU avx2,2048 令牌上下文)
- 大小差异反映了混合量化的开销
主要改进:
- IQ1_M 的困惑度大幅降低 43.9%(从 27.46 降至 15.41)
- IQ2_S 的困惑度降低 36.9%,同时仅增加 0.2GB 大小
- IQ1_S 尽管是 1 比特量化,但仍保持了 39.7% 的更高准确性
权衡:
- 所有变体的大小均有适度增加(0.1 - 0.3GB)
- 推理速度相近(差异 < 5%)
使用场景
- 将模型装入GPU显存
- 内存受限的部署
- 可以容忍 1 - 2 比特误差的CPU和边缘设备
- 超低比特量化研究
选择合适的模型格式
选择正确的模型格式取决于您的硬件能力和内存限制。
BF16(脑浮点16) - 若支持BF16加速则使用
- 一种 16 位浮点格式,专为更快的计算而设计,同时保留了良好的精度。
- 提供与 FP32 相似的动态范围,但内存使用更低。
- 若您的硬件支持 BF16 加速(请检查设备规格),建议使用。
- 与 FP32 相比,适用于高性能推理且内存占用减少。
使用 BF16 的情况:
- 您的硬件具有原生 BF16 支持(例如,较新的 GPU、TPU)。
- 您希望在节省内存的同时获得更高的精度。
- 您计划将模型重新量化为其他格式。
避免使用 BF16 的情况:
- 您的硬件不支持 BF16(可能会回退到 FP32 并运行较慢)。
- 您需要与缺乏 BF16 优化的旧设备兼容。
F16(浮点16) - 比 BF16 更广泛支持
- 一种 16 位浮点格式,具有高精度,但动态范围小于 BF16。
- 适用于大多数支持 FP16 加速的设备(包括许多 GPU 和一些 CPU)。
- 数值精度略低于 BF16,但通常足以进行推理。
使用 F16 的情况:
- 您的硬件支持 FP16 但不支持 BF16。
- 您需要在速度、内存使用和准确性之间取得平衡。
- 您在GPU或其他针对 FP16 计算优化的设备上运行。
避免使用 F16 的情况:
- 您的设备缺乏原生 FP16 支持(可能会比预期运行更慢)。
- 您有内存限制。
量化模型(Q4_K、Q6_K、Q8 等) - 用于 CPU 和低显存推理
量化可在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 最适合最小化内存使用,可能精度较低。
- 高比特模型(Q6_K、Q8_0) → 准确性更高,但需要更多内存。
使用量化模型的情况:
- 您在CPU上进行推理,需要优化的模型。
- 您的设备显存较低,无法加载全精度模型。
- 您希望在保持合理准确性的同时减少内存占用。
避免使用量化模型的情况:
- 您需要最高准确性(全精度模型更适合)。
- 您的硬件有足够的显存用于更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极端内存效率进行了优化,非常适合低功耗设备或内存是关键限制因素的大规模部署。
- IQ3_XS:超低比特量化(3 比特),具有极高的内存效率。
- 使用场景:最适合超低内存设备,即使 Q4_K 也太大的情况。
- 权衡:与高比特量化相比,准确性较低。
- IQ3_S:小块大小,实现最大内存效率。
- 使用场景:最适合低内存设备,当 IQ3_XS 过于激进时。
- IQ3_M:中等块大小,比 IQ3_S 具有更好的准确性。
- 使用场景:适用于低内存设备,当 IQ3_S 限制过多时。
- Q4_K:4 比特量化,具有逐块优化以提高准确性。
- 使用场景:最适合低内存设备,当 Q6_K 太大时。
- Q4_0:纯 4 比特量化,针对 ARM 设备进行了优化。
- 使用场景:最适合基于 ARM 的设备或低内存环境。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳使用场景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持 BF16 的 GPU/CPU | 减少内存的高速推理 |
F16 | 高 | 高 | 支持 FP16 的设备 | BF16 不可用时的 GPU 推理 |
Q4_K | 中低 | 低 | CPU 或低显存设备 | 内存受限环境的最佳选择 |
Q6_K | 中等 | 适中 | 内存更多的 CPU | 量化模型中准确性较好 |
Q8_0 | 高 | 适中 | 有足够显存的 CPU 或 GPU | 量化模型中最佳准确性 |
IQ3_XS | 非常低 | 非常低 | 超低内存设备 | 极端内存效率和低准确性 |
Q4_0 | 低 | 低 | ARM 或低内存设备 | llama.cpp 可针对 ARM 设备优化 |
包含文件及详情
UI-TARS-1.5-7B-bf16.gguf
- 模型权重以 BF16 格式保存。
- 如果您想将模型重新量化为不同格式,请使用此文件。
- 若您的设备支持 BF16 加速,此文件最佳。
UI-TARS-1.5-7B-f16.gguf
- 模型权重以 F16 格式存储。
- 若您的设备支持 FP16,尤其是当 BF16 不可用时,请使用此文件。
UI-TARS-1.5-7B-bf16-q8_0.gguf
- 输出和嵌入层保持为 BF16。
- 所有其他层量化为 Q8_0。
- 若您的设备支持 BF16 且您想要量化版本,请使用此文件。
UI-TARS-1.5-7B-f16-q8_0.gguf
- 输出和嵌入层保持为 F16。
- 所有其他层量化为 Q8_0。
UI-TARS-1.5-7B-q4_k.gguf
- 输出和嵌入层量化为 Q8_0。
- 所有其他层量化为 Q4_K。
- 适用于内存有限的 CPU 推理。
UI-TARS-1.5-7B-q4_k_s.gguf
- 最小的 Q4_K 变体,以牺牲准确性为代价减少内存使用。
- 最适合极低内存设置。
UI-TARS-1.5-7B-q6_k.gguf
- 输出和嵌入层量化为 Q8_0。
- 所有其他层量化为 Q6_K。
UI-TARS-1.5-7B-q8_0.gguf
- 完全 Q8 量化的模型,以获得更高的准确性。
- 需要更多内存,但提供更高的精度。
UI-TARS-1.5-7B-iq3_xs.gguf
- IQ3_XS 量化,针对极端内存效率进行了优化。
- 最适合超低内存设备。
UI-TARS-1.5-7B-iq3_m.gguf
- IQ3_M 量化,提供中等块大小以提高准确性。
- 适用于低内存设备。
UI-TARS-1.5-7B-q4_0.gguf
- 纯 Q4_0 量化,针对 ARM 设备进行了优化。
- 最适合低内存环境。
- 若追求更高准确性,建议使用 IQ4_NL。
模型测试与协作
如果您觉得这些模型有用,请点击“点赞”!同时,帮助我测试我的人工智能网络监控助手,它具备量子就绪安全检查功能: 免费网络监控
测试方法
选择一种人工智能助手类型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Huggingface开源)TestLLM
(仅适用于实验性 CPU)
测试内容
我正在探索小型开源模型在人工智能网络监控中的极限,具体包括:
- 针对实时网络服务的函数调用
- 模型可以多小,同时仍能处理:
- 自动化 Nmap 扫描
- 量子就绪检查
- 网络监控任务
TestLLM - 当前实验性模型(llama.cpp 在 2 个 CPU 线程上)
- 零配置设置
- 30 秒加载时间(推理较慢,但无 API 成本)
- 寻求帮助! 如果您对边缘设备人工智能感兴趣,让我们一起合作!
其他助手
- TurboLLM - 使用 gpt - 4o - mini 进行:
- 创建自定义命令处理器,在免费网络监控代理上运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试(Nmap/Metasploit)
- HugLLM - 最新开源模型:
- 在 Hugging Face 推理 API 上运行
示例测试命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,您需要安装免费网络监控代理才能运行 .net 代码。这是一个非常灵活和强大的功能,请谨慎使用!
总结
我自掏腰包为创建这些模型文件的服务器、运行免费网络监控服务以及从 Novita 和 OpenAI 进行推理提供资金。模型创建和免费网络监控项目背后的所有代码都是开源的。您可以自由使用任何有帮助的内容。
如果您认可我的工作,请考虑请我喝杯咖啡☕。您的支持将帮助支付服务成本,并使我能够为大家提高令牌限制。
我也欢迎工作机会或赞助。
感谢您的支持!
✨ 主要特性
- 创新量化方法:采用超低比特量化与IQ-DynamicGate技术,在极低比特率下保持较高准确性。
- 多格式支持:提供BF16、F16、Q4_K等多种模型格式,适应不同硬件和内存需求。
- 广泛应用场景:可用于图像文本转换、网络监控等多个领域。
- 高性能表现:在多个基准测试中表现出色,优于其他同类模型。
📚 详细文档
UI-TARS-1.5模型介绍
我们在 博客 中分享了 UI-TARS-1.5 模型的最新进展,该模型在游戏和 GUI 任务中表现出色。
模型概述
UI-TARS-1.5 是一个基于强大视觉语言模型构建的开源多模态代理,能够在虚拟世界中有效执行各种任务。
它基于 我们最近的论文 中介绍的基础架构,集成了强化学习实现的高级推理能力。这使得模型在采取行动之前能够进行思考,显著提高了其性能和适应性,特别是在推理时的扩展性方面。我们的新版本 1.5 在各种标准基准测试中取得了最先进的结果,展示了强大的推理能力,并相比之前的模型有了显著改进。
性能表现
在线基准测试评估
基准测试类型 | 基准测试 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的最优模型 |
---|---|---|---|---|---|
计算机使用 | OSworld (100 步) | 42.5 | 36.4 | 28 | 38.1 (200 步) |
Windows Agent Arena (50 步) | 42.1 | - | - | 29.8 | |
浏览器使用 | WebVoyager | 84.8 | 87 | 84.1 | 87 |
Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
手机使用 | Android World | 64.2 | - | - | 59.5 |
定位能力评估
基准测试 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的最优模型 |
---|---|---|---|---|
ScreensSpot-V2 | 94.2 | 87.9 | 87.6 | 91.6 |
ScreenSpotPro | 61.6 | 23.4 | 27.7 | 43.6 |
Poki 游戏
模型 | 2048 | cubinko | energy | free-the-key | Gem-11 | hex-frvr | Infinity-Loop | Maze:Path-of-Light | shapes | snake-solver | wood-blocks-3d | yarn-untangle | laser-maze-puzzle | tiles-master |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 |
Claude 3.7 | 43.05 | 0.00 | 41.60 | 0.00 | 0.00 | 30.76 | 2.31 | 82.00 | 6.26 | 42.86 | 0.00 | 13.77 | 28.00 | 52.18 |
UI-TARS-1.5 | 100.00 | 0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
Minecraft
任务类型 | 任务名称 | VPT | DreamerV3 | 之前的最优模型 | UI-TARS-1.5 无思考 | UI-TARS-1.5 有思考 |
---|---|---|---|---|---|---|
挖掘方块 | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 |
(obsidian) | 0.0 | 0.0 | 0.0 | 0.2 | 0.3 | |
(white_bed) | 0.0 | 0.0 | 0.1 | 0.4 | 0.6 | |
200 任务平均 | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 | |
击杀怪物 | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 |
(zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | |
(chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | |
100 任务平均 | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 |
模型规模比较
此表比较了 UI-TARS 不同模型规模在 OSworld 基准测试中的性能。
基准测试类型 | 基准测试 | UI-TARS-72B-DPO | UI-TARS-1.5-7B | UI-TARS-1.5 |
---|---|---|---|---|
计算机使用 | OSWorld | 24.6 | 27.5 | 42.5 |
GUI 定位 | ScreenSpotPro | 38.1 | 49.6 | 61.6 |
发布的 UI-TARS-1.5-7B 主要侧重于增强一般计算机使用能力,并非专门针对游戏场景进行优化,而 UI-TARS-1.5 在游戏场景中仍具有显著优势。
未来计划
我们正在为表现最佳的 UI-TARS-1.5 模型提供早期研究访问权限,以促进合作研究。感兴趣的研究人员可以通过 TARS 与我们联系。
📄 许可证
本项目采用 Apache-2.0 许可证。









