Q

Qwen2.5 VL 72B Instruct AWQ

Benasdによって開発
Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。
ダウンロード数 173
リリース時間 : 2/13/2025

モデル概要

Qwen2.5-VLは通義千問シリーズの最新視覚言語モデルで、視覚理解、インテリジェントエージェント、構造化出力能力の向上に焦点を当て、金融、ビジネスなど様々な分野に適用可能です。

モデル特徴

強化された視覚理解
画像内のテキスト、チャート、アイコン、図形、レイアウトを精密に分析し、一般的な物体認識を超越
インテリジェントエージェント能力
視覚エージェントとして直接推論を行い、ツールを動的に呼び出すことが可能で、コンピュータやスマートフォン操作能力を備える
長尺動画理解
1時間以上の動画内容を理解可能で、関連動画クリップを正確に特定するイベント捕捉能力を新たに追加
マルチフォーマット視覚位置特定
境界ボックスまたは点座標を生成して画像内の物体を正確に位置特定し、安定したJSONフォーマットデータを出力
構造化出力
請求書、表などのデータの構造化コンテンツ出力をサポートし、金融、ビジネスなどの分野に適用可能

モデル能力

画像理解
動画理解
テキスト認識
チャート分析
インテリジェントエージェント
視覚位置特定
構造化データ抽出

使用事例

ビジネス分析
請求書処理
請求書内の重要情報を自動認識・抽出
財務データの自動入力を実現
ビジネスレポート分析
ビジネスレポート内のチャートとデータを解析
迅速なビジネスインサイト生成
インテリジェントエージェント
スマートフォン操作自動化
視覚指示によるスマートフォンアプリ制御
自動テストと操作を実現
教育
数学問題解答
チャートや数式を含む数学問題を解析
ステップバイステップの解答プロセスを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase