P

Pixtral 12B Captioner Relaxed

unalignmentによって開発
Pixtral-12B-2409を微調整したマルチモーダル大規模言語モデルで、豊富な画像説明の生成に特化
ダウンロード数 26
リリース時間 : 1/22/2025

モデル概要

このモデルは命令微調整により画像説明生成能力を最適化し、与えられた画像に対してより包括的で階層的な詳細説明を生成可能。特にテキスト-画像データセット構築に適している

モデル特徴

詳細強化
より包括的で階層的な画像説明を生成
緩やかな制約
基本モデルに比べて制限の少ない画像説明を提供
自然言語位置特定
自然言語で画像内の異なる主体の位置関係を記述
画像生成最適化
最先端のテキストから画像へのモデルと互換性のある出力形式

モデル能力

画像説明生成
マルチモーダル理解
自然言語処理

使用事例

画像データセット構築
自動画像注釈
画像に対して詳細なテキスト説明を生成
データセット構築効率の向上
創作支援
テキストから画像へのモデル入力最適化
テキストから画像へのモデルに豊富なテキストプロンプトを提供
生成画像の品質と多様性の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase