C

Cogflorence 2.1 Large

thwriによって開発
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットでトレーニングされ、アノテーションはTHUDM/cogvlm2-llama3-chat-19Bによって生成されました。画像からテキストへのタスクに特化しています。
ダウンロード数 2,541
リリース時間 : 7/27/2024

モデル概要

このモデルは主に画像からテキストへのタスクに使用され、詳細な画像記述を生成できます。大規模な画像データセットでのファインチューニングにより、モデルのアノテーション能力が向上しました。

モデル特徴

高品質な画像アノテーション
詳細かつ正確な画像記述を生成でき、様々なテーマの画像に適用可能です。
大規模データセットでのトレーニング
Ejafa/ye-popデータセットの4万枚の画像サブセットでファインチューニングされ、モデルの汎化能力が向上しました。
凍結された視覚エンコーダー
トレーニング中に視覚エンコーダーが凍結され、元のモデルの視覚特徴抽出能力が維持されました。

モデル能力

画像記述生成
マルチテーマ画像分析
高品質テキスト出力

使用事例

画像アノテーション
詳細な画像記述
画像に対して詳細なテキスト記述を生成し、コンテンツ管理や検索に適しています。
色、形状、背景などの詳細を含む記述テキストを生成します。
コンテンツ管理
自動画像タグ付け
大量の画像に自動的にタグを生成し、コンテンツ管理の効率を向上させます。
正確な画像タグを迅速に生成し、手動アノテーションの作業量を削減します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase