P

Paligemma 3b Ft Vqav2 448

googleによって開発
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、画像理解とテキスト生成能力を組み合わせ、多言語タスクをサポートします。
ダウンロード数 121
リリース時間 : 5/12/2024

モデル概要

448*448入力画像に基づきVQAv2データセットでファインチューニングされた30億パラメータの視覚言語モデルで、画像とテキスト入力を受け取りテキスト出力を生成し、視覚質問応答や画像キャプションなどのタスクに適しています。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、クロスモーダルな意味理解を実現
軽量アーキテクチャ
わずか30億パラメータのコンパクト設計で、研究シナリオでの展開に適している
タスクプレフィックス設定
'caption'などのタスクプレフィックスで様々な視覚言語タスクを柔軟に切り替え
マルチ精度サポート
float32/bfloat16/float16および4-bit/8-bit量子化バージョンを提供

モデル能力

視覚質問応答
多言語画像キャプション
物体検出
画像セグメンテーション
クロスモーダル推論

使用事例

視覚理解
多言語画像キャプション
スペイン語などの言語で画像キャプションを生成
出力例:'Un auto azul estacionado frente a un edificio.'
視覚質問応答
画像内容に関する自然言語質問に回答
VQAv2データセットでファインチューニング
産業応用
物体検出
'detect'プレフィックスで画像内の物体位置を識別
対象バウンディングボックス座標リストを出力
文書分析
文字を含む画像内容を理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase