P

Paligemma 3b Ft Science Qa 448

googleによって開発
PaliGemmaはGoogleが開発した30億パラメータの軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力からテキスト出力を生成できます。
ダウンロード数 15
リリース時間 : 5/13/2024

モデル概要

多機能視覚言語モデルで、画像記述、視覚質問応答、テキスト読解、物体検出とセグメンテーションなどのタスク向けに設計されており、多言語処理をサポートします。

モデル特徴

軽量設計
わずか30億パラメータの規模で、リソースが限られた環境での展開に適しています
マルチタスク適応
タスクプレフィックス(例:'detect'や'segment')を使用して、さまざまな視覚言語タスクを設定できます
多解像度サポート
224/448/896など複数の入力解像度バージョンを提供し、さまざまな精度ニーズに対応します
責任あるトレーニング
トレーニングデータは厳格な安全フィルタリングを経ており、ポルノ、有害、個人情報を含むコンテンツが除去されています

モデル能力

画像記述生成
視覚質問応答
テキスト読解
物体検出
画像セグメンテーション
多言語処理

使用事例

教育
科学質問応答システム
ScienceQAデータセットに基づく科学問題解答
ScienceQAベンチマークでファインチューニングの優れたパフォーマンスを発揮
支援技術
視覚障害者支援
視覚障害ユーザー向けに画像内容を記述
コンテンツモデレーション
画像セキュリティ分析
画像内のセンシティブまたは不適切なコンテンツを検出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase