モデル概要
モデル特徴
モデル能力
使用事例
🚀 UI-TARS-1.5-7B GGUFモデル
このモデルは、多モーダルな画像テキスト生成に特化したUI-TARS-1.5-7B GGUFモデルです。最新の量子化手法を用いて、超低ビットモデルでの高精度な推論を実現しています。
🚀 クイックスタート
このモデルを使用するには、まず適切なモデル形式を選択し、それに応じたデバイスで実行する必要があります。以下のセクションでモデル形式の選択方法と各モデルの詳細を説明します。
✨ 主な機能
モデル生成の詳細
このモデルは、llama.cpp のコミット 6a2bc8bf
を使用して生成されました。
IQ-DynamicGateによる超低ビット量子化(1 - 2ビット)
最新の量子化手法では、超低ビットモデル(1 - 2ビット)に対して精度適応型量子化を導入しており、Llama-3-8B でのベンチマーク検証により精度の向上が確認されています。このアプローチでは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を維持しています。
ベンチマークの詳細
すべてのテストは、Llama-3-8B-Instruct を使用して以下の条件で実施されました。
- 標準的な困惑度評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化で同じプロンプトセット
手法
- 動的精度割り当て
- 最初と最後の25%のレイヤー → IQ4_XS(選択されたレイヤー)
- 中央の50% → IQ2_XXS/IQ3_S(効率を向上)
- 重要コンポーネントの保護
- 埋め込み層/出力層はQ5_Kを使用
- 標準的な1 - 2ビット量子化と比較して、誤差伝播を38%削減
量子化性能の比較(Llama-3-8B)
量子化方式 | 標準PPL | DynamicGate PPL | ΔPPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キー
- PPL = 困惑度(低い方が良い)
- ΔPPL = 標準からDynamicGateへの変化率
- 速度 = 推論時間(CPU avx2, 2048トークンコンテキスト)
- サイズの違いは混合量子化のオーバーヘッドを反映
主な改善点
- IQ1_M は、困惑度を43.9%大幅に削減(27.46 → 15.41)
- IQ2_S は、0.2GBの追加で困惑度を36.9%削減
- IQ1_S は、1ビット量子化でありながら39.7%の精度向上を維持
トレードオフ
- すべてのバリアントは、わずかなサイズの増加(0.1 - 0.3GB)
- 推論速度はほぼ同等(5%未満の差)
これらのモデルを使用するタイミング
- GPU VRAMにモデルを収める場合
- メモリが制限されたデプロイメント
- CPUおよびエッジデバイスで、1 - 2ビットの誤差を許容できる場合
- 超低ビット量子化の研究
📦 インストール
インストールに関する具体的な手順は提供されていません。モデルを使用するには、適切なモデル形式を選択し、それに対応したデバイスで実行する必要があります。
💻 使用例
使用例に関する具体的なコードは提供されていません。
📚 ドキュメント
適切なモデル形式の選択
正しいモデル形式の選択は、ハードウェア能力とメモリ制約に依存します。
BF16(Brain Float 16) - BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨(デバイスの仕様を確認)。
- FP32と比較して、メモリ使用量を削減した高性能推論に最適。
BF16を使用する場合
- ハードウェアがネイティブのBF16サポートを持っている場合(例:新しいGPU、TPU)
- メモリを節約しながら、より高い精度が必要な場合
- モデルを別の形式に再量子化する予定の場合
BF16を避ける場合
- ハードウェアがBF16をサポートしていない場合(FP32にフォールバックし、低速になる可能性がある)
- BF16最適化を持たない古いデバイスとの互換性が必要な場合
F16(Float 16) - BF16よりも広くサポートされている
- 16ビット浮動小数点数形式で、BF16よりも値の範囲が狭いが、高い精度を持ちます。
- ほとんどのFP16アクセラレーションをサポートするデバイスで動作(多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに低い数値精度ですが、一般的に推論には十分。
F16を使用する場合
- ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合
- 速度、メモリ使用量、精度のバランスが必要な場合
- FP16計算に最適化されたGPUまたは他のデバイスで実行する場合
F16を避ける場合
- デバイスがネイティブのFP16サポートを持っていない場合(予想よりも低速になる可能性がある)
- メモリ制限がある場合
量子化モデル(Q4_K, Q6_K, Q8, など) - CPUおよび低VRAM推論用
量子化は、モデルサイズとメモリ使用量を削減しながら、できるだけ精度を維持します。
- 低ビットモデル(Q4_K) - 最小限のメモリ使用量に最適で、精度が低い場合があります。
- 高ビットモデル(Q6_K, Q8_0) - より高い精度を提供し、より多くのメモリを必要とします。
量子化モデルを使用する場合
- CPUで推論を実行し、最適化されたモデルが必要な場合
- デバイスのVRAMが低く、フル精度モデルをロードできない場合
- 合理的な精度を維持しながら、メモリ使用量を削減したい場合
量子化モデルを避ける場合
- 最大の精度が必要な場合(フル精度モデルの方が適しています)
- ハードウェアに十分なVRAMがあり、より高精度の形式(BF16/F16)が使用可能な場合
超低ビット量子化(IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
これらのモデルは、極限のメモリ効率を目的として最適化されており、低電力デバイスまたは大規模デプロイメントでメモリが重要な制約となる場合に最適です。
- IQ3_XS:超低ビット量子化(3ビット)で、極限のメモリ効率を実現。
- 使用ケース:Q4_Kでさえ大きすぎる超低メモリデバイスに最適。
- トレードオフ:高位ビット量子化と比較して精度が低い。
- IQ3_S:最大のメモリ効率を実現する小さいブロックサイズ。
- 使用ケース:IQ3_XSが過度に制限的な低メモリデバイスに最適。
- IQ3_M:IQ3_Sよりも高い精度を提供する中間ブロックサイズ。
- 使用ケース:IQ3_Sが制限的すぎる低メモリデバイスに適しています。
- Q4_K:ブロック単位の最適化により、精度を向上させた4ビット量子化。
- 使用ケース:Q6_Kが大きすぎる低メモリデバイスに最適。
- Q4_0:純粋な4ビット量子化で、ARMデバイスまたは低メモリ環境に最適化。
- 使用ケース:ARMベースのデバイスまたは低メモリ環境に最適。
モデル形式選択のまとめテーブル
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用ケース |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応のGPU/CPU | メモリを削減した高速推論 |
F16 | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままでもより高い精度 |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最も高い精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | 極限のメモリ効率と低い精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppがARMデバイスを最適化できる |
含まれるファイルと詳細
UI-TARS-1.5-7B-bf16.gguf
- モデルの重みがBF16で保存されています。
- モデルを別の形式に再量子化する場合に使用します。
- デバイスがBF16アクセラレーションをサポートしている場合に最適。
UI-TARS-1.5-7B-f16.gguf
- モデルの重みがF16で保存されています。
- デバイスがFP16をサポートしている場合、特にBF16が利用できない場合に使用します。
UI-TARS-1.5-7B-bf16-q8_0.gguf
- 出力層と埋め込み層はBF16のままです。
- 他のすべてのレイヤーはQ8_0に量子化されています。
- デバイスがBF16をサポートしており、量子化バージョンが必要な場合に使用します。
UI-TARS-1.5-7B-f16-q8_0.gguf
- 出力層と埋め込み層はF16のままです。
- 他のすべてのレイヤーはQ8_0に量子化されています。
UI-TARS-1.5-7B-q4_k.gguf
- 出力層と埋め込み層はQ8_0に量子化されています。
- 他のすべてのレイヤーはQ4_Kに量子化されています。
- メモリが制限されたCPU推論に適しています。
UI-TARS-1.5-7B-q4_k_s.gguf
- 最小のQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減しています。
- 非常に低メモリのセットアップに最適。
UI-TARS-1.5-7B-q6_k.gguf
- 出力層と埋め込み層はQ8_0に量子化されています。
- 他のすべてのレイヤーはQ6_Kに量子化されています。
UI-TARS-1.5-7B-q8_0.gguf
- 完全にQ8に量子化されたモデルで、より高い精度を提供します。
- より多くのメモリを必要としますが、高い精度を実現します。
UI-TARS-1.5-7B-iq3_xs.gguf
- IQ3_XS量子化で、極限のメモリ効率を目的として最適化されています。
- 超低メモリデバイスに最適。
UI-TARS-1.5-7B-iq3_m.gguf
- IQ3_M量子化で、中間ブロックサイズを提供して精度を向上させています。
- 低メモリデバイスに適しています。
UI-TARS-1.5-7B-q4_0.gguf
- 純粋なQ4_0量子化で、ARMデバイスに最適化されています。
- 低メモリ環境に最適。
- より高い精度が必要な場合はIQ4_NLを選択してください。
モデルのテスト
これらのモデルが役に立つと思われる場合は、以下のリンクから無料のネットワークモニターを試すことができます。 無料ネットワークモニター
テスト方法
- AIアシスタントのタイプを選択
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginfaceオープンソース)TestLLM
(実験的なCPU専用)
テスト内容
- AIネットワークモニタリングのための小さなオープンソースモデルの限界を追求
- ライブネットワークサービスに対する関数呼び出し
- 以下のタスクを処理しながら、モデルをどれだけ小さくできるか
- 自動化されたNmapスキャン
- 量子準備チェック
- ネットワークモニタリングタスク
TestLLM - 現在の実験的モデル(2つのCPUスレッドでのllama.cpp)
- ゼロコンフィギュレーションセットアップ
- 30秒のロード時間(低速な推論ですが、APIコストがかからない)
- 協力を求めています! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
他のアシスタント
- TurboLLM - gpt-4o-miniを使用
- 無料ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト(Nmap/Metasploit)
- HugLLM - 最新のオープンソースモデル
- Hugging Face推論APIで実行
テストできるコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注:.NETコードを実行するには、無料のネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください!
UI-TARS-1.5モデルの概要
UI-TARS-1.5モデルの最新の進捗については、ブログ で共有しています。このモデルは、ゲームやGUIタスクで優れた性能を発揮します。
概要
UI-TARS-1.5は、強力なビジョン言語モデルをベースに構築されたオープンソースの多モーダルエージェントです。仮想世界での様々なタスクを効果的に実行することができます。 最近の論文 で導入された基礎アーキテクチャを活用し、強化学習による高度な推論機能を統合しています。これにより、モデルは行動を起こす前に思考を通じて推論することができ、特に推論時の拡張性において性能と適応性を大幅に向上させています。新しい1.5バージョンは、さまざまな標準ベンチマークで最先端の結果を達成し、強力な推論能力と以前のモデルに対する顕著な改善を示しています。
コードとアプリケーション
- コード: https://github.com/bytedance/UI-TARS
- アプリケーション: https://github.com/bytedance/UI-TARS-desktop
性能
オンラインベンチマーク評価
ベンチマークタイプ | ベンチマーク | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 以前のSOTA |
---|---|---|---|---|---|
コンピュータ使用 | OSworld (100ステップ) | 42.5 | 36.4 | 28 | 38.1 (200ステップ) |
Windows Agent Arena (50ステップ) | 42.1 | - | - | 29.8 | |
ブラウザ使用 | WebVoyager | 84.8 | 87 | 84.1 | 87 |
Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
携帯電話使用 | Android World | 64.2 | - | - | 59.5 |
グラウンディング能力評価
ベンチマーク | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 以前のSOTA |
---|---|---|---|---|
ScreensSpot-V2 | 94.2 | 87.9 | 87.6 | 91.6 |
ScreenSpotPro | 61.6 | 23.4 | 27.7 | 43.6 |
Pokiゲーム
モデル | 2048 | cubinko | energy | free-the-key | Gem-11 | hex-frvr | Infinity-Loop | Maze:Path-of-Light | shapes | snake-solver | wood-blocks-3d | yarn-untangle | laser-maze-puzzle | tiles-master |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 |
Claude 3.7 | 43.05 | 0.00 | 41.60 | 0.00 | 0.00 | 30.76 | 2.31 | 82.00 | 6.26 | 42.86 | 0.00 | 13.77 | 28.00 | 52.18 |
UI-TARS-1.5 | 100.00 | 0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
Minecraft
タスクタイプ | タスク名 | VPT | DreamerV3 | 以前のSOTA | UI-TARS-1.5 w/o Thought | UI-TARS-1.5 w/ Thought |
---|---|---|---|---|---|---|
ブロック採掘 | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 |
(obsidian) | 0.0 | 0.0 | 0.0 | 0.2 | 0.3 | |
(white_bed) | 0.0 | 0.0 | 0.1 | 0.4 | 0.6 | |
200タスク平均 | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 | |
モブ撃破 | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 |
(zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | |
(chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | |
100タスク平均 | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 |
モデル規模の比較
このテーブルは、OSworldベンチマークにおけるUI-TARSの異なるモデル規模の性能を比較しています。
ベンチマークタイプ | ベンチマーク | UI-TARS-72B-DPO | UI-TARS-1.5-7B | UI-TARS-1.5 |
---|---|---|---|---|
コンピュータ使用 | OSWorld | 24.6 | 27.5 | 42.5 |
GUIグラウンディング | ScreenSpotPro | 38.1 | 49.6 | 61.6 |
公開されたUI-TARS-1.5-7Bは、主に一般的なコンピュータ使用能力の向上に焦点を当てており、ゲームベースのシナリオには特に最適化されていません。その点では、UI-TARS-1.5が依然として大きな優位性を持っています。
今後の予定
トップパフォーマンスのUI-TARS-1.5モデルの早期研究アクセスを提供して、共同研究を促進しています。興味のある研究者は、TARSまでご連絡ください。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。









