P

Pic2story

abhijit2111によって開発
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成と理解タスクに優れており、ガイド付き記述生成を通じてノイズネットワークデータを効果的に活用します
ダウンロード数 140
リリース時間 : 4/9/2024

モデル概要

このモデルはCOCOデータセットで事前学習された画像キャプション生成モデルで、ViT大型バックボーンネットワークアーキテクチャを採用し、条件付きおよび無条件の画像キャプション生成をサポートします

モデル特徴

統一視覚-言語フレームワーク
視覚-言語理解と生成タスクに柔軟に転移可能
ガイド付き記述生成
記述ジェネレータとフィルタを通じてノイズネットワークデータを効果的に活用
マルチタスク適応
画像キャプション生成、画像テキスト検索、視覚的質問応答など多様なタスクをサポート

モデル能力

画像キャプション生成
視覚-言語理解
条件付きテキスト生成
無条件テキスト生成

使用事例

コンテンツ生成
自動画像タグ付け
画像に記述的なテキストを生成
COCOデータセットでCIDEr指標2.8%向上
情報検索
画像テキスト検索
テキストクエリに基づいて関連画像をマッチング
平均リコール@1が2.7%向上
インテリジェントQA
視覚的質問応答
画像内容に関する質問に回答
VQAスコア1.6%向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase