P

Paligemma 3b Ft Cococap 224

googleによって開発
PaliGemmaは、多言語の入出力をサポートする、多機能な軽量級ビジュアル言語モデル(VLM)です。様々なビジュアル言語タスクに適しています。
ダウンロード数 209
リリース時間 : 5/13/2024

モデル概要

PaliGemmaは、オープンコンポーネントを基に構築され、SigLIPビジュアルモデルとGemma言語モデルを組み合わせています。画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、目標検出と分割などのタスクを処理することができます。

モデル特徴

多機能性
質問応答、字幕生成、分割など、様々なビジュアル言語タスクを処理することができます。
多言語サポート
複数の言語の入力と出力をサポートします。
軽量級設計
モデルのパラメータが比較的少なく、様々なデバイスでの研究やアプリケーションが容易です。

モデル能力

画像字幕生成
ビジュアル質問応答
テキスト読み取り
目標検出
目標分割

使用事例

マルチメディア処理
画像字幕生成
画像や短い動画に多言語の字幕を生成します。
画像の内容を正確に記述した字幕を生成します
ビジュアル質問応答
画像の内容に関する自然言語の質問に答えます。
正確な質問の答えを提供します
コンピュータビジョン
目標検出
画像内の目標を検出し、バウンディングボックスの座標を出力します。
画像内の目標を正確に識別して位置を特定します
目標分割
画像内の目標をピクセルレベルで分割します。
正確な目標分割マスクを生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase