P

Paligemma2 3b Pt 896

googleによって開発
PaliGemma 2はマルチモーダル視覚言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートし、さまざまな視覚言語タスクに適しています。
ダウンロード数 2,536
リリース時間 : 11/21/2024

モデル概要

PaliGemma 2はGemma 2とSigLIPに基づいて構築された視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成し、画像字幕、視覚質問応答、テキスト閲読などのさまざまなタスクに適しています。

モデル特徴

マルチモーダル入出力
画像とテキストを入力として受け取り、テキスト出力を生成し、多言語をサポートします。
幅広いタスクサポート
画像や短い動画の字幕、視覚質問応答、テキスト閲読、目標検出と目標分割などのさまざまな視覚言語タスクに適しています。
高性能微調整
さまざまな視覚言語タスクでトップレベルの微調整性能を持っています。
責任あるデータフィルタリング
事前学習データに対して、色情、毒性、個人情報などの多重フィルタリングを行い、モデルの安全性と責任性を確保します。

モデル能力

画像字幕生成
視覚質問応答
目標検出
目標分割
多言語テキスト生成
画像理解
テキスト閲読

使用事例

画像と動画の理解
画像字幕生成
画像に対して説明的な字幕を生成します。
COCO - 35Lデータセットで、英語字幕のスコアが142.4(3Bモデル)
視覚質問応答
画像の内容に関する質問に答えます。
VQAv2データセットで85.8%の正解率を達成(28Bモデル)
教育
視覚学習支援
学生が画像内の情報を理解するのを支援します。
ScienceQAデータセットで98.6%の正解率を達成(28Bモデル)
文書処理
表理解
文書内の表の内容を解析して理解します。
FinTabNetデータセットでTEDSスコアが98.94(3Bモデル)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase