UI-TARS-1.5-7B-GGUFオープンソースマルチモーダルモデル - 画像とテキストの変換を効率的に実現し、低ビットレートでも高精度

ホーム

UI TARS 1.5 7B GGUF

Mungertによって開発

UI-TARS-1.5-7Bは先進技術に基づくマルチモーダルモデルで、画像とテキストの変換などのタスクで優れた性能を発揮します。革新的な量子化方法を採用し、極低ビットレートでも高い精度を維持することができます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #超低ビット量子化 #マルチモーダルエージェント #GUIタスク最適化

ダウンロード数 2,526

リリース時間 : 5/18/2025

モデル概要

このモデルはマルチモーダルエージェントで、仮想世界で様々なタスクを実行することができ、特に画像とテキストの変換やネットワーク監視に長けています。強化学習を用いた高度な推論能力を備え、性能と適応性が大幅に向上しています。

モデル特徴

革新的な量子化方法

超低ビット量子化とIQ-DynamicGate技術を採用し、極低ビットレートでも高い精度を維持します。

多形式対応

BF16、F16、Q4_Kなどの複数のモデル形式を提供し、さまざまなハードウェアとメモリの要件に対応します。

高い性能

複数のベンチマークテストで優れた結果を示し、他の同類のモデルを上回っています。

強化学習の統合

強化学習を用いた高度な推論能力を備え、性能と適応性が大幅に向上しています。

モデル能力

画像とテキストの変換

ネットワーク監視

GUIタスクの実行

ゲームタスクの処理

セキュリティ監査

ネットワーク診断

使用事例

コンピュータの使用

OSworldタスクの実行

100ステップ以内でコンピュータの使用タスクを完了します。

42.5点で、OpenAI CUAとClaude 3.7を上回っています。

Windows Agent Arena

50ステップ以内でWindowsタスクを完了します。

42.1点で、これまでの最良モデルを大きく上回っています。

ゲーム

Pokiゲーム

複数のウェブゲームタスクを実行します。

14のテストゲームすべてで100％の完了率を達成しました。

Minecraftタスク

ブロックの掘削とモンスターの討伐タスクを行います。

思考モードで最良の結果を示し、200のタスクの平均で0.42点です。

ネットワーク監視

SSL証明書のチェック

ウェブサイトのSSL証明書情報をチェックします。

量子セキュリティ暗号化のチェック

サーバーが量子セキュリティ暗号化を使用しているかを検証します。

🚀 UI-TARS-1.5-7B GGUFモデル

このモデルは、多モーダルな画像テキスト生成に特化したUI-TARS-1.5-7B GGUFモデルです。最新の量子化手法を用いて、超低ビットモデルでの高精度な推論を実現しています。

🚀 クイックスタート

このモデルを使用するには、まず適切なモデル形式を選択し、それに応じたデバイスで実行する必要があります。以下のセクションでモデル形式の選択方法と各モデルの詳細を説明します。

✨ 主な機能

モデル生成の詳細

このモデルは、llama.cpp のコミット 6a2bc8bf を使用して生成されました。

IQ-DynamicGateによる超低ビット量子化（1 - 2ビット）

最新の量子化手法では、超低ビットモデル（1 - 2ビット）に対して精度適応型量子化を導入しており、Llama-3-8B でのベンチマーク検証により精度の向上が確認されています。このアプローチでは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を維持しています。

ベンチマークの詳細

すべてのテストは、Llama-3-8B-Instruct を使用して以下の条件で実施されました。

標準的な困惑度評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセット

手法

動的精度割り当て
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中央の50% → IQ2_XXS/IQ3_S（効率を向上）
重要コンポーネントの保護
- 埋め込み層/出力層はQ5_Kを使用
- 標準的な1 - 2ビット量子化と比較して、誤差伝播を38%削減

量子化性能の比較（Llama-3-8B）

量子化方式	標準PPL	DynamicGate PPL	ΔPPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー

PPL = 困惑度（低い方が良い）
ΔPPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2, 2048トークンコンテキスト）
サイズの違いは混合量子化のオーバーヘッドを反映

主な改善点

IQ1_M は、困惑度を43.9%大幅に削減（27.46 → 15.41）
IQ2_S は、0.2GBの追加で困惑度を36.9%削減
IQ1_S は、1ビット量子化でありながら39.7%の精度向上を維持

トレードオフ

すべてのバリアントは、わずかなサイズの増加（0.1 - 0.3GB）
推論速度はほぼ同等（5%未満の差）

これらのモデルを使用するタイミング

GPU VRAMにモデルを収める場合
メモリが制限されたデプロイメント
CPUおよびエッジデバイスで、1 - 2ビットの誤差を許容できる場合
超低ビット量子化の研究

📦 インストール

インストールに関する具体的な手順は提供されていません。モデルを使用するには、適切なモデル形式を選択し、それに対応したデバイスで実行する必要があります。

💻 使用例

使用例に関する具体的なコードは提供されていません。

📚 ドキュメント

適切なモデル形式の選択

正しいモデル形式の選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16） - BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比較して、メモリ使用量を削減した高性能推論に最適。

BF16を使用する場合

ハードウェアがネイティブのBF16サポートを持っている場合（例：新しいGPU、TPU）
メモリを節約しながら、より高い精度が必要な場合
モデルを別の形式に再量子化する予定の場合

BF16を避ける場合

ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性がある）
BF16最適化を持たない古いデバイスとの互換性が必要な場合

F16（Float 16） - BF16よりも広くサポートされている

16ビット浮動小数点数形式で、BF16よりも値の範囲が狭いが、高い精度を持ちます。
ほとんどのFP16アクセラレーションをサポートするデバイスで動作（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに低い数値精度ですが、一般的に推論には十分。

F16を使用する場合

ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合
速度、メモリ使用量、精度のバランスが必要な場合
FP16計算に最適化されたGPUまたは他のデバイスで実行する場合

F16を避ける場合

デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性がある）
メモリ制限がある場合

量子化モデル（Q4_K, Q6_K, Q8, など） - CPUおよび低VRAM推論用

量子化は、モデルサイズとメモリ使用量を削減しながら、できるだけ精度を維持します。

低ビットモデル（Q4_K） - 最小限のメモリ使用量に最適で、精度が低い場合があります。
高ビットモデル（Q6_K, Q8_0） - より高い精度を提供し、より多くのメモリを必要とします。

量子化モデルを使用する場合

CPUで推論を実行し、最適化されたモデルが必要な場合
デバイスのVRAMが低く、フル精度モデルをロードできない場合
合理的な精度を維持しながら、メモリ使用量を削減したい場合

量子化モデルを避ける場合

最大の精度が必要な場合（フル精度モデルの方が適しています）
ハードウェアに十分なVRAMがあり、より高精度の形式（BF16/F16）が使用可能な場合

超低ビット量子化（IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0）

これらのモデルは、極限のメモリ効率を目的として最適化されており、低電力デバイスまたは大規模デプロイメントでメモリが重要な制約となる場合に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極限のメモリ効率を実現。
- 使用ケース：Q4_Kでさえ大きすぎる超低メモリデバイスに最適。
- トレードオフ：高位ビット量子化と比較して精度が低い。
IQ3_S：最大のメモリ効率を実現する小さいブロックサイズ。
- 使用ケース：IQ3_XSが過度に制限的な低メモリデバイスに最適。
IQ3_M：IQ3_Sよりも高い精度を提供する中間ブロックサイズ。
- 使用ケース：IQ3_Sが制限的すぎる低メモリデバイスに適しています。
Q4_K：ブロック単位の最適化により、精度を向上させた4ビット量子化。
- 使用ケース：Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0：純粋な4ビット量子化で、ARMデバイスまたは低メモリ環境に最適化。
- 使用ケース：ARMベースのデバイスまたは低メモリ環境に最適。

モデル形式選択のまとめテーブル

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用ケース
BF16	最高	高	BF16対応のGPU/CPU	メモリを削減した高速推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中	中程度	より多くのメモリを持つCPU	量子化されたままでもより高い精度
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最も高い精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極限のメモリ効率と低い精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイスを最適化できる

含まれるファイルと詳細

`UI-TARS-1.5-7B-bf16.gguf`

モデルの重みがBF16で保存されています。
モデルを別の形式に再量子化する場合に使用します。
デバイスがBF16アクセラレーションをサポートしている場合に最適。

`UI-TARS-1.5-7B-f16.gguf`

モデルの重みがF16で保存されています。
デバイスがFP16をサポートしている場合、特にBF16が利用できない場合に使用します。

`UI-TARS-1.5-7B-bf16-q8_0.gguf`

出力層と埋め込み層はBF16のままです。
他のすべてのレイヤーはQ8_0に量子化されています。
デバイスがBF16をサポートしており、量子化バージョンが必要な場合に使用します。

`UI-TARS-1.5-7B-f16-q8_0.gguf`

出力層と埋め込み層はF16のままです。
他のすべてのレイヤーはQ8_0に量子化されています。

`UI-TARS-1.5-7B-q4_k.gguf`

出力層と埋め込み層はQ8_0に量子化されています。
他のすべてのレイヤーはQ4_Kに量子化されています。
メモリが制限されたCPU推論に適しています。

`UI-TARS-1.5-7B-q4_k_s.gguf`

最小のQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減しています。
非常に低メモリのセットアップに最適。

`UI-TARS-1.5-7B-q6_k.gguf`

出力層と埋め込み層はQ8_0に量子化されています。
他のすべてのレイヤーはQ6_Kに量子化されています。

`UI-TARS-1.5-7B-q8_0.gguf`

完全にQ8に量子化されたモデルで、より高い精度を提供します。
より多くのメモリを必要としますが、高い精度を実現します。

`UI-TARS-1.5-7B-iq3_xs.gguf`

IQ3_XS量子化で、極限のメモリ効率を目的として最適化されています。
超低メモリデバイスに最適。

`UI-TARS-1.5-7B-iq3_m.gguf`

IQ3_M量子化で、中間ブロックサイズを提供して精度を向上させています。
低メモリデバイスに適しています。

`UI-TARS-1.5-7B-q4_0.gguf`

純粋なQ4_0量子化で、ARMデバイスに最適化されています。
低メモリ環境に最適。
より高い精度が必要な場合はIQ4_NLを選択してください。

モデルのテスト

これらのモデルが役に立つと思われる場合は、以下のリンクから無料のネットワークモニターを試すことができます。無料ネットワークモニター

テスト方法

AIアシスタントのタイプを選択
- TurboLLM (GPT-4o-mini)
- HugLLM (Hugginfaceオープンソース)
- TestLLM (実験的なCPU専用)

テスト内容

AIネットワークモニタリングのための小さなオープンソースモデルの限界を追求
- ライブネットワークサービスに対する関数呼び出し
- 以下のタスクを処理しながら、モデルをどれだけ小さくできるか
  - 自動化されたNmapスキャン
  - 量子準備チェック
  - ネットワークモニタリングタスク

TestLLM - 現在の実験的モデル（2つのCPUスレッドでのllama.cpp）

ゼロコンフィギュレーションセットアップ
30秒のロード時間（低速な推論ですが、APIコストがかからない）
協力を求めています！ エッジデバイスAIに興味がある方は、一緒に協力しましょう！

他のアシスタント

TurboLLM - gpt-4o-miniを使用
- 無料ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト（Nmap/Metasploit）
HugLLM - 最新のオープンソースモデル
- Hugging Face推論APIで実行

テストできるコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注：.NETコードを実行するには、無料のネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

UI-TARS-1.5モデルの概要

UI-TARS-1.5モデルの最新の進捗については、ブログで共有しています。このモデルは、ゲームやGUIタスクで優れた性能を発揮します。

概要

UI-TARS-1.5は、強力なビジョン言語モデルをベースに構築されたオープンソースの多モーダルエージェントです。仮想世界での様々なタスクを効果的に実行することができます。最近の論文で導入された基礎アーキテクチャを活用し、強化学習による高度な推論機能を統合しています。これにより、モデルは行動を起こす前に思考を通じて推論することができ、特に推論時の拡張性において性能と適応性を大幅に向上させています。新しい1.5バージョンは、さまざまな標準ベンチマークで最先端の結果を達成し、強力な推論能力と以前のモデルに対する顕著な改善を示しています。

コードとアプリケーション

コード: https://github.com/bytedance/UI-TARS
アプリケーション: https://github.com/bytedance/UI-TARS-desktop

性能

オンラインベンチマーク評価

ベンチマークタイプ	ベンチマーク	UI-TARS-1.5	OpenAI CUA	Claude 3.7	以前のSOTA
コンピュータ使用	OSworld (100ステップ)	42.5	36.4	28	38.1 (200ステップ)
	Windows Agent Arena (50ステップ)	42.1	-	-	29.8
ブラウザ使用	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
携帯電話使用	Android World	64.2	-	-	59.5

グラウンディング能力評価

ベンチマーク	UI-TARS-1.5	OpenAI CUA	Claude 3.7	以前のSOTA
ScreensSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Pokiゲーム

モデル	2048	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
Claude 3.7	43.05	41.60	0.00	0.00	30.76	2.31	82.00	6.26	42.86	0.00	13.77	28.00	52.18
UI-TARS-1.5	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00

Minecraft

タスクタイプ	タスク名	VPT	DreamerV3	以前のSOTA	UI-TARS-1.5 w/o Thought	UI-TARS-1.5 w/ Thought
ブロック採掘	(oak_log)	0.8	1.0	1.0	1.0	1.0
	(obsidian)	0.0	0.0	0.0	0.2	0.3
	(white_bed)	0.0	0.0	0.1	0.4	0.6
	200タスク平均	0.06	0.03	0.32	0.35	0.42
モブ撃破	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100タスク平均	0.04	0.03	0.18	0.25	0.31