P

Paligemma 3b Ft Rsvqa Lr 224

googleによって開発
PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能の軽量級ビジュアル言語モデル(VLM)で、多言語をサポートしています。
ダウンロード数 223
リリース時間 : 5/12/2024

モデル概要

PaliGemmaは、オープンコンポーネントに基づいて構築されており、画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、さまざまなビジュアル言語タスクに適しています。

モデル特徴

マルチモーダル入力
画像とテキストの入力を同時に処理し、テキスト出力を生成します
マルチタスクサポート
字幕生成、ビジュアル質問応答、物体検出、セグメンテーションなど、さまざまなビジュアル言語タスクをサポートします
多言語能力
多言語の処理をサポートし、国際化されたアプリケーションシナリオに適しています
軽量級設計
30億パラメータの軽量級モデルで、さまざまなデプロイメントシナリオに適しています

モデル能力

画像字幕生成
ビジュアル質問応答
物体検出
物体セグメンテーション
多言語処理
テキスト読み取り

使用事例

コンテンツ生成
多言語画像字幕
画像に対して複数の言語の説明的な字幕を生成します
COCO - 35LデータセットでCIDErスコアが141.2(英語)に達します
ビジュアル質問応答
複雑なビジュアル質問の回答
画像の内容に関する複雑な質問に回答します
VQAv2テストセットで正解率が85.64%に達します
文書分析
文書ビジュアル質問応答
文書画像から情報を抽出し、質問に回答します
DocVQAテストセットでANLSが84.77に達します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase