InstanceCap - Captionerオープンソース視覚言語モデル - 無料でインスタンスレベルの画像キャプションを生成

ホーム

Instancecap Captioner

AnonMegumiによって開発

Qwen2.5-VL-7B-Instructをinstancevidデータセットでファインチューニングした視覚言語モデルで、インスタンスレベルの画像記述生成に特化

画像生成テキスト

Transformers

オープンソースライセンス:その他 #視覚言語モデル #インスタンス動画記述 #マルチモーダル生成

ダウンロード数 14

リリース時間 : 4/8/2025

モデル概要

これは視覚言語モデルで、画像内の特定インスタンスの詳細な記述を生成できます。Qwen2.5-VL-7B-Instructアーキテクチャを基に、instancevidデータセットでファインチューニングされています。

モデル特徴

インスタンスレベル画像記述

画像全体の一般的な記述ではなく、特定インスタンスに対する詳細な記述を生成可能

マルチモーダル理解

視覚と言語理解能力を統合し、複雑な画像-テキスト関連タスクを処理可能

効率的なファインチューニング

LoRAなどの効率的なファインチューニング技術を使用し、元モデルの性能を維持しながら特定タスクを最適化

モデル能力

画像理解

インスタンスレベル記述生成

マルチモーダル推論

視覚的質問応答

使用事例

コンテンツ生成

EC製品記述

ECプラットフォーム上の製品の詳細な視覚的記述を自動生成

製品記述の正確性と豊富さを向上

アクセシビリティ支援

視覚障害者向けに画像内容の詳細な音声記述を提供

デジタルコンテンツのアクセシビリティ向上

コンピュータビジョン

動画コンテンツ分析

動画フレーム内の特定オブジェクトを連続的に記述

動画コンテンツ理解と検索を支援

属性	详情
モデル名	InstanceCap-Captioner
ベースモデル	Qwen/Qwen2.5-VL-7B-Instruct
タグ	llama-factory、full、generated_from_trainer

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Instancecap Captioner

モデル概要

モデル特徴

モデル能力

使用事例

🚀 InstanceCap-Captioner

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

フレームワークのバージョン

📄 ライセンス