C

Cogflorence 2.2 Large

thwriによって開発
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットで訓練され、アノテーションテキストはTHUDM/cogvlm2-llama3-chat-19Bによって生成され、画像からテキストへのタスクに適しています。
ダウンロード数 20.64k
リリース時間 : 8/23/2024

モデル概要

詳細な画像記述とアノテーション生成に特化したファインチューニングされた視覚-言語モデル。

モデル特徴

高品質画像アノテーション
画像の詳細や感情を捉えた、詳細かつ正確な画像記述を生成可能
多段階アノテーション処理
アノテーションテキストはCogVLM2で生成後Gemmaで処理され、表現の明瞭さが向上
最適化された視覚エンコーディング
訓練中は視覚エンコーダのパラメータを固定し、視覚特徴の安定性を確保

モデル能力

画像記述生成
画像内容分析
視覚的シーン理解
詳細画像アノテーション

使用事例

コンテンツ作成
画像自動アノテーション
画像ライブラリの画像に対して自動的に詳細な記述を生成
画像検索効率の向上、アクセシビリティの強化
支援技術
視覚障害者支援
視覚障害ユーザーに詳細な画像記述を提供
視覚コンテンツの理解を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase