C

Cogflorence 2 Large Freeze

thwriによって開発
これはmicrosoft/Florence-2-largeモデルのファインチューニング版で、Ejafa/ye-popデータセットの38,000枚の画像サブセットでトレーニングされ、CogVLM2で生成されたアノテーションを使用し、画像からテキストへのタスクに焦点を当てています。
ダウンロード数 419
リリース時間 : 7/4/2024

モデル概要

このモデルは視覚言語モデルで、入力画像から詳細なテキスト記述を生成できます。Florence-2-largeをベースにファインチューニングされ、画像アノテーション能力が強化されています。

モデル特徴

高品質画像アノテーション
詳細で正確な画像記述を生成でき、画像の主要要素や細部を捉えます
大規模データファインチューニング
38,000枚の多様な画像でトレーニングされ、モデルの汎化能力が向上
視覚エンコーダーフリーズ
トレーニング時に視覚エンコーダーのパラメータを固定し、テキスト生成能力の最適化に集中

モデル能力

画像理解
詳細な画像記述生成
複数要素シーン分析

使用事例

コンテンツ生成
画像自動アノテーション
画像ライブラリの写真に自動的に詳細な説明を生成
画像検索効率とアクセシビリティの向上
支援技術
視覚支援
視覚障害者向けに画像内容の詳細な音声説明を提供
デジタルコンテンツのアクセシビリティ強化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase