U

Uform Gen Chat

unum-cloudによって開発
UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。
ダウンロード数 65
リリース時間 : 12/27/2023

モデル概要

UForm-Genは小型の生成的視覚言語モデルで、視覚エンコーダーと命令データセットでファインチューニングされた言語モデルを含み、画像理解と生成タスクに適しています。

モデル特徴

マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像関連のコンテンツを理解し生成できる
軽量
同類モデルと比較してパラメータ規模が小さい(1.5B)、リソースが限られた環境に適している
対話最適化
マルチモーダル対話シナリオ向けに特別にファインチューニングされている

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル対話
画像内容理解

使用事例

コンテンツ理解
画像キャプション生成
入力画像に対して自然言語の説明を生成する
CLIPScore: 0.860(長文), 0.858(短文)
視覚的質問応答
画像内容に関する自然言語の質問に答える
人間とコンピュータの相互作用
マルチモーダル対話
画像内容に基づいて自然言語で対話する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase