P

Paligemma 3b Ft Scicap 224

googleによって開発
PaliGemmaは軽量級のビジュアル言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語と多タスク処理をサポートします。
ダウンロード数 107
リリース時間 : 5/12/2024

モデル概要

PaliGemmaはPaLI - 3にインスピレーションを受けた多機能なビジュアル言語モデルで、オープンコンポーネントに基づいて構築され、画像キャプション、ビジュアル質問応答、テキスト読み取り、物体検出とセグメンテーションなどのさまざまなタスクに適しています。

モデル特徴

マルチモーダル入力
画像とテキストの入力を同時に処理し、テキスト出力を生成することをサポートします。
多言語対応
複数の言語の入力と出力を処理でき、国際化されたアプリケーションシナリオに適しています。
軽量級設計
オープンコンポーネントに基づいて構築され、パラメータ規模が適度で、リソースが限られた環境に適しています。
多機能タスク処理
質問応答、キャプション生成、セグメンテーションなどのさまざまなビジュアル言語タスクをサポートします。

モデル能力

画像キャプション生成
ビジュアル質問応答
物体検出
物体セグメンテーション
多言語テキスト生成

使用事例

画像理解
画像キャプション生成
画像に対して記述的なキャプションを生成し、複数の言語をサポートします。
画像内容に合った正確なキャプションを生成します。
ビジュアル質問応答
画像内容に関する自然言語の質問に回答します。
正確で関連性のある回答を提供します。
物体検出とセグメンテーション
物体検出
画像中の物体を識別し、そのバウンディングボックスの座標を返します。
正確な物体の位置特定。
物体セグメンテーション
画像中の物体をピクセルレベルでセグメンテーションします。
正確なセグメンテーションマスクを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase