L

Llama Joycaption Beta One Hf Llava GGUF

Mungertによって開発
コミュニティ向けに無料で公開された画像キャプション付け用の視覚言語モデル(VLM)で、拡散モデルの学習に使用でき、多様な画像スタイルと内容に対応しています。
ダウンロード数 2,968
リリース時間 : 6/8/2025

モデル概要

このモデルはLlama-3.1-8B-InstructとSigLIP2に基づく視覚言語モデルで、高品質で多様な画像キャプションの生成に特化しており、様々な画像スタイルと内容に適しています。

モデル特徴

無料でオープンソース
モデルのウェイトが公開されており、使用制限はありません。学習スクリプトと詳細な構築情報が付属しています。
無審査
安全な内容(SFW)と公開に適さない内容(NSFW)をバランスよくカバーしており、曖昧な表現は使用されません。
多様性
様々な画像スタイル、内容、人種、性別、性的指向などを網羅しており、すべてのユーザーに適しています。
最小限のフィルタリング
大量の画像で学習されており、現実世界の様々な側面を理解できますが、違法な内容は一切含まれていません。

モデル能力

画像キャプション生成
視覚言語理解
多様な内容生成

使用事例

画像キャプション生成
正式な記述的キャプションの生成
画像に対して詳細で正式なキャプション記述を生成します。
高品質で多様なキャプション出力。
拡散モデルの学習
拡散モデルの学習に使用し、より正確な画像記述を生成します。
拡散モデルの生成品質を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase