P

Paligemma2 28b Mix 224

googleによって開発
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を統合し、多言語画像テキストインタラクションタスクをサポートします。
ダウンロード数 2,050
リリース時間 : 11/22/2024

モデル概要

Gemma 2とSigLIPを基に構築されたマルチモーダルモデルで、画像キャプション生成、視覚的質問応答、物体検出などの視覚言語タスクに優れており、mix(直接使用)とpt(ファインチューニング用)の2つのバージョンを提供します。

モデル特徴

マルチタスク統合フレームワーク
特定のプロンプトテンプレートを通じて、キャプション生成、OCR、質問応答など8種類のタスクをサポートし、モデルアーキテクチャの変更を必要としません
オープンコンポーネント統合
SigLIP視覚モデルとGemma 2言語モデルの強みを融合し、高性能なマルチモーダル理解を実現
責任あるデータフィルタリング
学習データはポルノコンテンツ、有害テキスト、個人情報など多層的な安全フィルタリングを経ています

モデル能力

画像短い説明生成
画像詳細説明生成
多言語光学文字認識
視覚的質問応答
質問生成
物体検出
インスタンスセグメンテーション
多言語テキスト生成

使用事例

コンテンツ理解
自動画像タグ付け
画像に対して高品質な説明テキストを生成
短い説明(COCO類似)と長い説明の2つのモードをサポート
文書デジタル化
画像から印刷/手書きテキストを抽出
'ocr'コマンドで多言語文字認識を実現
インテリジェントインタラクション
視覚的質問応答システム
画像内容に関する自然言語質問に回答
'answer {lang} {question}'コマンド形式をサポート
教育支援ツール
画像内容に基づいてテスト問題を自動生成
'question {lang} {answer}'で逆問題生成を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase