U

Uground V1 72B

osunlpによって開発
UGroundは、画像テキストからテキストへのマルチモーダルタスクに特化した、シンプルなレシピでトレーニングされた強力なGUI視覚位置特定モデルです。
ダウンロード数 129
リリース時間 : 1/11/2025

モデル概要

UGroundは、OSUNLPとOrby AIが共同開発した視覚位置特定モデルで、Qwen2-VLアーキテクチャをベースにしており、画像とテキスト間のマルチモーダルインタラクションタスクを処理できます。

モデル特徴

強力なGUI視覚位置特定能力
UGroundは、グラフィカルユーザーインターフェース内の要素を正確に理解し位置特定でき、効率的な画像テキストインタラクションを実現します。
マルチモーダルサポート
このモデルは画像とテキスト間のマルチモーダルインタラクションをサポートし、複雑な視覚と言語タスクを処理できます。
Qwen2-VLアーキテクチャベース
先進的なQwen2-VL-72Bアーキテクチャを採用しており、強力な計算能力と処理効率を備えています。

モデル能力

画像テキストインタラクション
GUI要素位置特定
マルチモーダルタスク処理

使用事例

GUI自動化
画面要素位置特定
自動テストにおいて画面上のGUI要素を位置特定し操作するために使用されます。
自動テストの精度と効率を向上させます。
マルチモーダルインタラクション
画像説明生成
画像の内容に基づいて詳細なテキスト説明を生成します。
画像理解と説明の品質を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase