C

Chatrex 7B

IDEA-Researchによって開発
ChatRexは優れた知覚能力を持つマルチモーダル大規模言語モデルで、質問に答える際に答えを具体的なオブジェクトに関連付けることができます。
ダウンロード数 825
リリース時間 : 11/25/2024

モデル概要

ChatRexは、細粒度の物体認識と強力な言語理解能力をシームレスに統合することを目的としたマルチモーダル大規模言語モデル(MLLM)です。分離アーキテクチャと検索ベースの物体検出手法を組み合わせ、高解像度の視覚入力を活用することで、知覚タスクにおける重要な課題を解決します。

モデル特徴

細粒度物体認識
画像内の具体的なオブジェクトに答えを関連付けることができ、細粒度の物体認識を実現します。
マルチモーダル統合
視覚と言語理解能力をシームレスに統合し、様々な視覚言語タスクをサポートします。
高解像度視覚入力
高解像度の視覚入力を活用し、知覚タスクの精度を向上させます。
汎用提案ネットワーク(UPN)
細粒度と粗粒度の検出能力を組み合わせた、二重粒度プロンプトチューニング戦略を採用したDETRアーキテクチャです。

モデル能力

物体検出
エンティティベースの対話
エンティティベースの画像説明
領域理解
マルチモーダル質問応答

使用事例

視覚的質問応答
物体検出とエンティティ連携
画像内の特定のオブジェクトを検出し、答えを具体的なオブジェクトに関連付けます。
画像内のオブジェクトを正確に検出し関連付けることができます。
画像説明
領域説明生成
画像内の特定領域の説明を生成します。
正確かつ詳細な領域説明を生成できます。
エンティティベースの画像説明
エンティティインデックスを含む画像説明を生成します。
生成された説明には言及されたすべてのオブジェクトのインデックスが含まれます。
対話システム
エンティティベースの対話
対話中に答えを画像内の具体的なオブジェクトに関連付けます。
エンティティベースの自然な対話を実現できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase