Cogflorence 2.1 Large
C
Cogflorence 2.1 Large
thwriによって開発
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットでトレーニングされ、アノテーションはTHUDM/cogvlm2-llama3-chat-19Bによって生成されました。画像からテキストへのタスクに特化しています。
ダウンロード数 2,541
リリース時間 : 7/27/2024
モデル概要
このモデルは主に画像からテキストへのタスクに使用され、詳細な画像記述を生成できます。大規模な画像データセットでのファインチューニングにより、モデルのアノテーション能力が向上しました。
モデル特徴
高品質な画像アノテーション
詳細かつ正確な画像記述を生成でき、様々なテーマの画像に適用可能です。
大規模データセットでのトレーニング
Ejafa/ye-popデータセットの4万枚の画像サブセットでファインチューニングされ、モデルの汎化能力が向上しました。
凍結された視覚エンコーダー
トレーニング中に視覚エンコーダーが凍結され、元のモデルの視覚特徴抽出能力が維持されました。
モデル能力
画像記述生成
マルチテーマ画像分析
高品質テキスト出力
使用事例
画像アノテーション
詳細な画像記述
画像に対して詳細なテキスト記述を生成し、コンテンツ管理や検索に適しています。
色、形状、背景などの詳細を含む記述テキストを生成します。
コンテンツ管理
自動画像タグ付け
大量の画像に自動的にタグを生成し、コンテンツ管理の効率を向上させます。
正確な画像タグを迅速に生成し、手動アノテーションの作業量を削減します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98