P

Paligemma 3b Ft Widgetcap Waveui 448

agentseaによって開発
PaliGemma 3B 448解像度の重みを基に、WaveUIデータセットで物体検出タスク向けに微調整された視覚言語モデル
ダウンロード数 344
リリース時間 : 7/8/2024

モデル概要

UI要素検出に特化した視覚言語モデルで、AgentSeaオープンソースエージェント構築ツールキットの重要な構成要素

モデル特徴

高精度UI要素検出
WaveUIデータセットで微調整され、UI要素検出性能を特別に最適化
PaliGemmaアーキテクチャベース
GoogleのPaliGemma 3Bモデルを基に構築され、強力なマルチモーダル理解能力を備える
オープンソースエージェントサポート
AgentSeaオープンソースエージェント構築ツールキットのコアコンポーネント

モデル能力

UI要素検出
マルチモーダル理解
物体位置特定

使用事例

UI自動化
インターフェース要素認識
アプリケーションインターフェースのボタン、入力欄などの要素を自動認識
テストセットで0.40 IoUを達成
エージェント開発
自動テスト
UIを理解できるテストエージェントの構築に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase