M

Monkey

echo840によって開発
モンキーモデルは効率的な大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル方法の改善により、複数の視覚タスクで優れた性能を発揮します。
ダウンロード数 308
リリース時間 : 11/22/2023

モデル概要

モンキーモデルは画像解像度を896×1344ピクセルに向上させ、マルチレベル記述生成方法を採用することで、シーンとオブジェクトの文脈関連理解能力を強化しています。

モデル特徴

高解像度サポート
1344×896解像度の入力をサポートし、従来の448×448解像度を超え、微小物体、密集オブジェクト、テキストの識別理解能力を大幅に向上させます
マルチレベル記述生成
革新的なマルチレベル記述生成方法を設計し、シーンとオブジェクトの文脈関連を学習するための豊富な情報を自動的に提供します
文脈関連推論
質問応答時に優れた対象関係推論能力を示し、より洞察に富む総合的な結果を出力します

モデル能力

高解像度画像理解
詳細な画像記述生成
視覚質問応答
文書画像処理
文脈関連推論

使用事例

画像理解
詳細画像記述
画像に対して詳細なテキスト記述を生成
記述精度はGPT4Vを上回る
文書処理
密集テキスト理解
密集テキストを含む文書画像を処理
卓越した性能を示す
視覚質問応答
汎用視覚質問応答
画像内容に関する様々な質問に回答
16の多様なデータセットテストで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase