P

Paligemma2 3b Ft Docci 448

Developed by google
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
Downloads 8,765
Release Time : 11/21/2024

Model Overview

PaliGemma 2はGemma 2とSigLIP視覚モデルを基にした視覚言語モデルで、画像とテキスト入力を受け取り、テキスト出力を生成します。画像キャプション生成、視覚的質問応答など様々なタスクに適しています。

Model Features

マルチモーダル入力
画像とテキスト入力を同時に処理し、視覚言語の統合理解を実現します。
マルチタスク適応
画像キャプション、視覚的質問応答、物体検出など様々な視覚言語タスクにファインチューニング可能です。
多言語サポート
トレーニングデータは複数言語をカバーし、多言語テキスト生成をサポートします。
効率的なアーキテクチャ
SigLIP視覚エンコーダとGemma 2テキストデコーダを組み合わせ、効率的な視覚言語処理を実現します。

Model Capabilities

画像キャプション生成
視覚的質問応答
テキスト読解
物体検出
画像セグメンテーション
多言語テキスト生成

Use Cases

コンテンツ生成
画像説明生成
画像に対して詳細な文章説明を生成
画像内容に合致した自然言語説明を生成
ショート動画字幕
ショート動画に字幕を生成
動画内容を正確に記述した字幕
質問応答システム
視覚的質問応答
画像内容に関する質問に回答
画像に基づく質問に正確に回答
コンピュータビジョン
物体検出
画像中の物体を検出し位置特定
物体のバウンディングボックス座標を出力
画像セグメンテーション
画像を意味的に分割
セグメンテーションコードワードを出力
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase