B

Blip Base Captioning Ft Hl Actions

michelecafagna26によって開発
このモデルはBLIPアーキテクチャをファインチューニングした画像からテキストを生成するモデルで、画像中の高レベルな動作を記述するキャプション生成に特化しています。
ダウンロード数 16
リリース時間 : 7/22/2023

モデル概要

このモデルはHLデータセットでファインチューニングされており、画像から動作を記述する自然言語テキストの生成に焦点を当てています。

モデル特徴

高レベル動作記述
画像中の高レベルな動作を記述するテキスト生成に特化
ファインチューニング最適化
HLデータセットで6エポックのファインチューニングを行い、動作記述能力を最適化
半精度トレーニング
fp16半精度を使用してトレーニング効率を向上

モデル能力

画像理解
動作記述生成
自然言語生成

使用事例

画像記述
動作シーン記述
人物の動作を含む画像に対して記述テキストを生成
'彼女は傘をさしている'などの自然言語記述を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase