U

Uground V1 72B Preview

osunlpによって開発
Qwen2-VLはQwen-VLモデルシリーズの最新版で、全解像度画像理解、超長尺動画解析、多言語テキスト画像認識能力を備えています。
ダウンロード数 21
リリース時間 : 1/7/2025

モデル概要

720億パラメータのマルチモーダル視覚言語モデルで、画像理解、動画分析、多言語テキスト認識、エージェント操作などの機能をサポートします。

モデル特徴

全解像度画像理解
動的ビジュアルトークンマッピングにより人間のような視覚処理を実現し、MathVistaやDocVQAなどのベンチマークで最先端の性能を達成
超長尺動画理解
20分以上の動画コンテンツを解析可能で、高品質な動画Q&A、対話、創作をサポート
エージェントOS
複雑な推論と意思決定能力を統合し、スマートフォンやロボットなどのデバイスと連携して視覚環境駆動の自動操作を実現
多言語テキスト画像理解
画像内の多言語テキスト認識をサポートし、主要欧州言語、日本語、韓国語、アラビア語、ベトナム語などをカバー

モデル能力

画像理解
動画分析
多言語テキスト認識
エージェント操作
複雑推論
意思決定支援

使用事例

ドキュメント処理
ドキュメントQ&A
ドキュメント画像を解析して関連質問に回答
DocVQAテストセットで96.5%の精度を達成
教育
数学問題解答
数学チャートを解析して問題を解答
MathVistaテストセットで70.5%の精度を達成
スマートデバイス
Androidデバイス操作
視覚理解を通じてAndroidデバイスを制御
AITZベンチマークでタイプマッチング精度89.6%を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase